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内 容 简介 

随 着 互联 网 的 迅速 发 展 ， 几 乎 所 有 工具 软件 和 程序 语言 都 文 持 的 
正则 表达 式 也 变 得 越 来 越 强大 和 易于 使 用 。 本 书 是 讲解 正则 表达 式 的 
经 典 之 作 。 本 书 主要 讲解 了 正则 表达 式 的 特性 和 流派 、 匹 配 原 理 、 优 
化 原则 、 实 用 诀窍 以 及 调 校 措施 ， 并 详细 介绍 了 正则 表达 式 在 Perl、 
Java、.NET、PHP 中 的 用 法 。 

本 书目 第 1 版 开始 着力 于 教会 读者 “以 正则 表达 式 来 思考 *”， 来 让 
读者 真正 “精通 ”正则 表达 式 。 该 版 对 PHP 的 相关 内 容 、Javal.5 和 
Javal.6 的 新 特性 作 了 可 观 的 扩充 讲解 。 任 何 有 机 会 使 用 正则 表达 式 的 
读者 都 会 从 中 获 益 匪 浅 。 
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一 夫 当 关 

IT 产业 新 技术 日 新 月 异 ， 令 人 目不暇接 ， 然 而 在 这 其 中 ， 真 正 能 
称 得 上 伟大 的 东西 却 罕 窗 无 几 。1998 年 ， 被 誉 为 “软件 世界 的 爱 迪 
生 ”， 发 明了 BSD、TCP/IP、csh、vi 和 和 NFS 的 SUN 首 席 科 学 家 Bill Joy% 
经 不 无 调 佩 地 说 ， 在 计算 机 体系 结构 领域 里 ， 绥 存 是 唯一 能 称 得 上 伟 
大 的 思想 ， 其 他 的 一 切 发 明和 技术 不 过 是 在 不 同 场景 下 应 用 这 一 思想 
而 已 。 在 计算 机 软件 领域 里 ， 情 形 也 大 体 相 似 。 如 果 罗 列 这 个 领域 中 
的 伟大 发 明 ， 我 相信 绝 不 会 超过 二 十 项 。 在 这 个 名 单 当 中 ， 当 然 应 该 
包括 分 组 交换 网 络 、Web、Lisp、 哈 希 算法 、UNIX、 编 译 技 术 、 关 系 
模型 、 面 同 对 象 、XML 这 些 大 名 鼎鼎 的 家 伙 ， 而 正则 表达 式 也 绝对 不 
应 该 被 漏 掉 。 正 则 表达 式 具 有 伟大 技术 发 明 的 一 切 特点 ， 它 简单 、 优 
美 、 功 能 强大 、 妙 用 无 穷 。 对 于 很 多 实际 工作 来 讲 ， 正 则 表达 式 简 直 
是 灵丹妙药 ， 能 够 成 百倍 地 提高 开发 效率 和 程序 质量 。CSDN 的 创始 
人 蒋 涛 先生 在 早年 开发 专业 软件 产品 时 ， 就 曾经 体验 过 这 一 工具 的 巨 
大 威力 ， 并 且 一 直 印 象 深 刻 。 而 我 的 一 位 从 事 网 络 编辑 工作 的 朋友 ， 
最 近 也 领略 了 正则 表达 式 的 威力 一 -他 用 Pen 开发 了 一 个 不 足 20 行 的 
小 程序 ， 使 用 正则 表达 式 将 一 项 原本 每 天 耗 用 10 人 时 的 工作 在 一 分 钟 
之 内 自动 完成 。 而 正则 表达 式 在 生物 信息 学 和 人 类 基因 图 谱 的 研究 中 
所 发 挥 的 关键 作用 ， 更 是 被 传 为 佳话 。 无 论 对 于 软件 开发 者 ， 还 是 从 
事 其 他 知识 工作 的 专业 人 士 ， 正 则 表达 式 都 是 最 有 利 的 工具 之 一 。 

所 谓 正 则 表达 式 ， 就 是 一 种 描述 字符 串 结构 模式 的 形式 化 表达 方 
法 。 在 发 展 的 初期 ， 这 套 方 法 仅 限于 描述 正则 文本 ， 故 此 得 名 “正则 表 
达 式 (regular expression) ”。 随 着 正则 表达 式 研 究 的 深入 和 发 展 ， 特 
别 是 Perl 语言 的 实践 和 探索 ， 正 则 表达 式 的 能 力 已 经 大 大 突破 了 传统 
的 、 数 学 上 的 限制 ， 成 为 威力 巨大 的 实用 工具 ， 在 几乎 所 有 主流 语言 
中 获得 文 持 。 为 什么 正则 表达 式 具 有 如 此 巨大 的 魅力 ? 一 方面 ， 因 为 
正则 表达 式 处 理 的 对 象 是 字符 串 ， 或 者 抽象 地 说 ， 是 一 个 对 象 序列 ， 
而 这 恰恰 是 当今 计算 机 体系 的 本 质数 据 结构 ， 我 们 围绕 计算 机 所 做 的 
大 多 数 工 作 ， 都 归结 为 在 这 个 序列 上 的 操作 ， 因 此 ， 正 则 表达 式 用 途 
广阔 。 男 一 方面 ， 与 大 多 数 其 他 技术 不 同 ， 正 则 表达 式 具有 超 强 的 结 


MUGEN RE, Ibe NRE ze HHR 
王 关 万 别 的 软件 对 象 ， 再 组 合成 为 无 所 不 能 的 软件 系统 ， 因 此 ， 朱 述 
了 结构 ， 就 等 于 描述 了 系统 。 在 这 方面 ， 正 则 表达 式 的 地 位 是 独特 
的 。 正 因为 这 两 点 ， 在 现在 的 软件 开发 和 日 第 数据 处 理工 作 中 ， 正 则 
表达 式 已 经 成 为 必 不 可 少 的 工具 。 如 采 一 个 开发 工具 不 文 持 正则 表达 
式 ， 那 它 丈 会 被 视 为 玩具 语言 ， 如 有 果 一 个 编辑 船 不 文 持 正则 表达 式 ， 
那 它 束 会 被 成 为 阳春 应 用 。 连 人 们 原本 并 不 指望 应 用 正则 表达 式 的 两 
用 数据 库 ， 各 家 厂商 也 竞相 以 文 持 正 则 表达 式 为 卖点 。 正 则 表达 式 的 
ERZE, EE EN 

非常 奇怪 的 是 ， 这 样 一 个 了 不 起 的 技术 ， 在 我 国 却 并 没有 得 到 充 
分 推广 。 以 其 价值 而 言 ， 正 则 表达 式 不 但 值得 每 一 个 专业 程序 员 掌 
握 ， 而 且 值 得 所 有 知识 工作 者 去 了 解 。 然 而 现实 情况 是 ， 不 但 一 般 知 
识 工作 者 大 多 闻所未闻 ， 很 多 专业 程序 员 也 视 之 为 豚 途 。 为 什么 会 出 
现 这 种 情况 呢 ? 原因 有 二 。 其 一 ， 正 则 表达 式 产 生 和 发 展 在 UNIX X 
化 体系 之 中 ， 而 我 国 软件 开发 社 群 的 知识 结构 长 期 受到 微软 的 决定 ， 
UNIX 文 化 影响 甚 微 。 在 2002 年 推出 .NET 平 台 之 前 ， 微 软 在 其 各 项 主 
流 平 台 、 产 品 与 开发 工具 当中 ， 均 未 对 正则 表达 式 给 予 足够 的 重视 ， 
相应 地 ， 我 们 的 开发 者 们 对 正则 表达 式 也 整 知 之 不 多 。 第 二 ， 也 是 更 
重要 的 原因 ， 束 是 正则 表达 式 并 不 是 那么 好 掌握 的 ， 在 通 向 敬 驭 正则 
表达 式 强 大 力量 的 道路 上 ， 还 是 有 那么 几 只 拦路 虎 的 ， 而 要 打 虎 过 
岗 ， 不 但 要 人 花 点 功夫 ， 还 要 有 正确 的 方法 。 

学 习 正则 表达 式 ， 入 门 不 难 ， 看 一 些 例子 ， 试 着 模仿 模仿 ， 束 可 
以 粗 通 ， 并 且 在 工作 中 解决 不 少 问题 。 然 而 大 部 分 学 习 者 也 整整 此 止 
步 ， 他 们 对 目 己 说 :“ 正 则 表达 式 不 过 如 此 ， 我 束 学 到 这 里 了 ， 以 后 现 
用 现 学 环行 了 。” 他 们 以 为 目 己 可 以 像 学 习 其 他 技术 一 样 ， 在 实践 中 逐 
渐 提 高 正则 表达 式 的 应 用 水 平 。 然 而 事实 上 ， 正 则 表达 式 并 不 是 每 天 
都 会 用 到 ， 而 其 密码 般 的 形象 ， 随 着 时 间 的 推移 很 容易 被 态 记 ， 所 以 
经 党 发 生 的 情况 是 ， 开 发 者 对 于 正则 表达 式 的 记忆 迅速 消 褪 ， 每 次 遇 
到 痢 的 问题 ， 都 要 查 痪 料 ， 重 新 唤 回 记忆 ， 对 于 稍微 复杂 一 点 的 问 
题 ， 只 好 求助 于 现成 的 解决 方案 。 反 反复 复 ， 长 期 如 此 ， 不 但 应 用 水 
平 难以 明显 提升 ， 而 且 会 对 这 项 技术 逐渐 产生 一 定 的 你 惧 感 和 厌烦 情 
绪 。 这 还 只 是 应 用 阶段 ， 正 则 表达 式 应 用 的 高 级 阶段 ， 要 求 开发 者 还 


必须 充分 理解 正则 表达 式 的 能 力 范围 ， 能 够 将 一 些 正则 表达 式 技术 组 
合 应 用 ， 达 成 超 乎 一 般 想 像 的 效果 。 为 了 高 效 、 正 确 地 解决 实际 问 
题 ， 有 的 时 候 甚至 要 求 深入 理解 正则 表达 式 的 原理 ， 甚 至 对 于 如 何 实 
现 正则 表达 式 引擎 都 要 有 所 了 解 ， 在 此 基础 上 ， 规 避 陷 阱 ， 优 化 设 
计 ， 提 高 程序 执行 效率 。 要 达到 这 样 的 程度 ， 不 经 过 系统 的 学 习 是 不 
可 能 的 。 

系统 学 习 正则 表达 式 并 不 是 一 件 容易 的 事情 ， 仅 仅 通过 阅读 一 
HOW TO* 的 快餐 式 文章 是 不 行 的 ， 必 须 有 更 完整 、 更 系统 的 资料 
指导 学 习 。 如 果 你 在 国外 技术 社区 里 询问 如 何 才能 系统 学 习 正则 表达 
式 ， 几 乎 所 有 的 领域 专家 都 会 向 你 推荐 一 本 书 _ Jeffrey Friedl 
通 正则 表达 式 》， 也 就 是 本 书 。 

这 本 《精通 正则 表达 式 》 是 系统 学 习 正则 表达 式 的 唯一 最 权威 著 
作 。 可 以 说 ， 在 今天 ， 如 果 想 理解 和 掌握 正则 表达 式 ， 想 要 建立 关于 
这 一 技术 的 完整 概念 体系 ， 想 充分 发 挥 其 巨大 能 量 ， 这 本 书 几 乎 是 无 
法 绕 开 的 必 经 之 路 。 甚 至 可 以 说 ， 如 果 你 没有 读 过 这 本 书 ， 那 么 你 对 
于 正则 表达 式 的 理解 和 应 用 能 力 一 定 达 不 到 升 堂 入 室 的 程度 。 本 书 第 
1 版 出 版 于 十 年 之 前 ， 自 那 时 起 它 就 成 为 正则 表达 式 领域 最 全 面 、 最 
受 欢迎 的 代表 著作 ， 数 以 万 计 的 读者 通过 这 本 书 掌握 了 正则 表达 式 ， 
成 为 行家 里 手 。 在 任何 时 候 ， 任 何 地 方 ， 只 要 提 到 正则 表达 式 著作 ， 
人 们 都 会 提 到 这 本 书 。 这 本 书 的 质量 之 高 ， 声 誉 之 盛 ， 使 得 几乎 没有 
人 企图 挑战 它 的 地 位 ， 从 而 在 正则 表达 式 图 书 领域 形成 独特 的 “一 夫 当 
关 ” 的 局 面 ， 称 其 为 正则 表达 式 圣经 ， 绝 对 当之无愧 。 

为 什么 这 本 书 能 够 表现 得 如 此 出 色 ? 我 认为 这 其 中 有 三 个 原因 。 
其 一 ， 作 者 本 人 具有 多 年 程序 开发 经 验 ， 理 论 基础 深厚 ， 实 战 经 验 丰 
富 ， 对 正则 表达 式 这 个 主题 透彻 理解 ， 因 此 在 技术 上 得 心 应 手 ， 底 气 
十 足 ， 对 于 技术 上 的 难点 不 回避 、 不 含糊 。 作 者 高 超 的 技术 水 平 是 本 
书 质量 的 强大 保证 。 其 二 ， 作 者 思路 对 头 ， 素 材 组 织 得 当 ， 用 例 丰 
富 。 正 则 表达 式 根植 于 数学 理论 ， 却 又 能 在 日 常 俗 事 上 发 挥 巨大 的 效 
用 。 写 这 种 类 型 的 技术 ， 思 路 稍微 一 偏差 ， 就 可 能 走 到 路 ， 不 是 太 理 
论 ， 就 是 太 琐碎 ， 不 是 太 枯 燥 ， 就 是 太 浅薄 ， 实 在 很 难 把 握 。 作 者 清 
楚 地 认识 到 ， 这 本 书 的 读者 不 是 计算 机 科学 家 ， 但 也 不 是 满足 于 “ 知 其 
然而 不 知 其 所 以 然 "的 快餐 式 代码 小 子 ， 而 是 具有 一 定理 论 素养 ， 却 又 


始终 以 实践 为 本 的 专业 开发 者 。 他 们 需要 的 是 面 问 实践 的 理论 和 思 
想 ， 是 实 实在 在 的 实战 能 力 ， 只 有 满足 这 种 需要 ， 才 能 够 真正 打动 读 
者 。 通 读 此 书 ， 可 以 说 作者 对 这 一 路 线 的 把 握 十 分 成 功 ， 保 证 了 内 容 
大 方 问 的 正确 。 其 三 ， 这 本 书 的 写法 独具匠心 ， 堪 称 典范 。 技 术 图 书 
的 主要 使 命 是 传播 专业 知识 。 而 专业 知识 分 为 框 腑 性 知识 和 具体 知 
识 。 框 架 性 知识 需要 通过 系统 的 阅读 和 学 习 掌 握 ， 而 大 量 的 具体 知 
识 ， 则 主要 通过 日 党 工作 的 积 素 以 及 随 用 随 碍 的 的 学 习 来 逐渐 填充 起 
来 。 本 书 前 六 章 ， 以 顺序 式 记述 的 方式 ， 将 正则 表达 式 的 系统 知识 九 
妮 道 来 ， 读 者 像 看 故事 书 似 的 天 建立 起 整个 正则 表达 式 的 基本 知识 体 
系 。 而 后 面 的 内 容 ， 则 是 方便 实际 开发 中 频 发 但 阅 之 用 ， 包 括 各 大 主 
流 语 言 对 正则 表达 式 的 支持 细 市 ， 包 含有 大 量 案例 。 这 样 的 写法 ， 完 
全 符合 一 般 人 学 习 的 特点 ， 因 此 书 读 起 来 非常 导 意 ， 非 党 有 趣 ， 用 的 
时 候 碍 起 来 又 非常 方便 。 这 样 的 著述 风格 ， 实 在 值得 学 习 。 

读者 可 以 在 没有 任何 正则 表达 式 的 基础 上 开始 阅读 此 书 ， 只 要 勤 
动脑 ， 加 强 理解 ， 适 当 动手 练习 ， 将 能 够 在 不 长 的 时 间 里 掌握 正则 表 
达 式 的 思想 和 技术 精华 ， 这 一 点 已 经 被 很 多 人 验证 过 ， 我 本 人 也 是 这 
本 书 的 受 三 者 之 一 。 正 因为 这 本 书 独一无二 的 地 位 和 高 度 的 可 读 性 ， 
也 因为 正则 表达 式 作 为 一 项 了 不 起 的 技术 发 明 所 具有 的 巨大 威力 ， 我 
非常 希望 更 多 的 读者 能 够 通过 认真 地 学 习 本 书 而 掌握 这 一 强大 技术 ， 
并 至 受 这 项 技术 市 来 的 快乐 。 


HA 


2007 年 7 月 于 北京 


译 者 序 


《精通 正则 表达 式 〈 第 3 版 ) 》 (BE Mastering Regular 
Expression, 3rd Edition) 是 一 本 好 书 。 

我 还 记得 ， 目 己 刚 开始 工作 时 ， 残 遇 到 了 关于 正则 表达 式 的 问题 

MUDGEE EW) : 若 从 文本 中 抽取 E-mail 地 址 ， 还 可 以 用 字符 串 

来 查找 〈 移 定位 到 @， 然 后 向 两 端 查找 ) ， 若 要 抽取 URL， 简 单 的 文 
本 得 找 葡 无能为力 了 。 正 当 我 一 筹 葛 展 之 时 ， 项 目 经 理 说 : “可 以 用 正 
则 表达 式 ， 去 网 上 找 找 资料 吧 。” 抱 着 这 根 救命 稻草 ， 我 搜索 了 之 前 只 
是 听 说 过 名 字 的 正则 表达 式 的 资料 ， 并 打印 了 java.util.regex (开发 用 
的 Java) 的 文档 来 看 。 撞 索 了 半天 ， 我 的 感觉 就 是 ， 这 玩意 儿 ， 真 神 
F, BRR, BEA ° 

此 后 ， 用 到 正则 表达 式 的 地 方 越 来 越 多 ， 我 也 越 来 越 感觉 到 它 的 
重要 ， 然 而 使 用 起 来 却 总 感觉 捉襟见肘 。 当 时 是 夏天 ， 北 京 非常 热 ， 
我 决定 下 班 之 后 不 再 着 急 赶 车 回 家 ， 而 是 在 公司 安心 看 看 技术 文档 ， 
于 是 黎 反 了 这 本 Mastering Regular Expression。 该 书 原 文 是 相当 通畅 易 
懂 的 ， 看 完全 书 大 概 花 了 我 一 周 的 业余 时 间 ， 之 后 便 如 拨 云 见 日 ， 感 


觉 峪 然 开朗 一 原来 正则 表达 式 可 以 这 样 用 ， 真 是 奇妙 ， 令 人 拍案 叫 
绝 。 


此 后 我 运用 正则 表达 式 便 不 用 再 看 什么 资料 了 ， 充 其 量 陇 是 查 碍 
语言 的 具体 文档 ， 表 达 式 的 基本 模型 和 思路 ， 完 全 是 在 阅读 本 书 时 确 
立 的 。 也 正 是 因为 细心 阅读 过 本 书 ， 所 以 有 时 我 能 以 正则 表达 式 解 决 
某 些 复杂 的 问题 。 我 的 朋友 郝 培 强 (Tinyfool， 有 昵称 Tiny) 曾 问 过 我 这 
样 一 个 正则 表达 式 的 问题 : 在 Apache 服 务 器 的 Rewrite 规 则 中 ， 怎 样 以 
一 个 正则 表达 式 匹 配 “ 除 两 个 特定 子 域名 之 外 的 所 有 其 他 子 域名 *， 其 
他 人 的 办 法 都 无 法 满足 要 求 : 要 么 只 能 匹配 这 两 个 特定 的 子 域名 ， 要 
么 必须 依赖 程序 分 支 才能 进行 判断 。 其 实 这 个 问题 ， 是 可 以 用 一 个 正 
则 表达 式 匹 配 的 。 事 后 ，Tiny 说 ， 看 来 ， 会 用 正则 的 人 很 多 ， 但 真正 
懂得 正则 的 人 很 少 。 现 实情 况 也 确实 如 此 ， 束 我 所 见 ， 不 少 同仁 对 正 
则 表达 式 的 运用 ， 大 多 是 从 网 上 找 些 现成 的 表达 式 ， 套 用 在 自己 的 程 
序 中 ， 但 对 到 廉 该 用 几 个 反 斜 线 转 义 ， 转 义 是 在 字符 串 级 别 还 是 表达 


式 级 别 进 行 的 ， 捕 获 型 括号 是 否 必 须 ， 表 达 式 的 效率 如 何 ， 等 等 问 
题 ， 往 往 都 是 一 知 半 解 ， 甚 至 毫 无 概念 ， 在 Tiny 的 问题 面前 ， 更 是 束 
FER, 一筹莫展 。 

束 我 个 人 来 说 ， 我 所 掌握 的 正则 表达 式 的 知识 ， 绝 大 多 数 来 自 本 
书 。 正 是 依靠 这 些 知 识 ， 我 几乎 能 以 正则 表达 式 进 行 自己 期 望 的 任何 
文本 处 理 ， 所 以 我 相信 ， 能 够 耐心 读 完 这 本 书 的 读者 ， 一 定 能 深入 正 
则 表达 式 的 世界 ， 奉 再 加 以 练习 和 思考 ， 束 能 熟练 地 依靠 它 解 决 各 种 
复杂 的 问题 (其 中 就 包括 类 似 Tiny 的 问题 了 。 

去 年 ， 通 过 霍 炬 (Virushuo) 的 介绍 ， 我 参加 了 博文 视点 的 试 译 
活动 ， 很 茎 运 地 获得 了 翻译 本 书 的 机 会 。 有 机 会 与 大 家 分 享 这 样 一 本 
好 书 ， 我 深 感 采 邓 。500 多 页 的 书 ， 拖 拖拉 拉 ， 也 花 了 半年 多 的 时 间 。 
虽然 之 前 读 过 原著 ， 积 累 了 一些 运 用 正则 表达 式 的 经 验 ， 也 翻译 过 数 
十 万 字 的 资料 ， 但 要 尽 可 能 人 准确、 贴切 地 传达 原文 的 阅读 感觉 ， 我 仍 
感 顾 费 心力 。 部 分 译文 在 确认 理解 原文 的 基础 上 ， 要 以 符合 中 文 习 惯 
的 方式 加 以 表 壕 仍然 颇 费 周折 (例如 ， 直 译 的 “正则 表达 式 确实 容许 出 
现 这 种 错误 *”， 原 文 的 意思 是 “这 样 的 错误 超出 了 正则 表达 式 的 能 力 ” 
最 后 修改 为 “出 现 这 样 的 错误 ， 不 能 怪 正则 表达 式 ” 或 “这 样 的 问题 ， 错 
不 在 正则 表达 式 ”) 。 另 有 部 分 词语 ， 虽 可 译 为 中 文 ， 但 为 保证 阅读 的 
流畅 ， 没 有 翻译 (例如 ，“ 它 包含 特殊 和 一 般 两 个 部 分 ， 特 殊 部 分 之 所 
以 是 特殊 的 ， 原 因 在 于 .……. ”， 此 处 special 和 normal 是 专 指 ， 故 翻译 
为 “ 它 包含 special 和 normal 两 个 部 分 ，special 部 分 之 所 以 得 和 名， 原因 
在 于 ......”) ， 这 样 的 处 理 ， 相 信 不 会 影响 读者 的 理解 。 

在 本 书 翻译 结束 之 际 ， 我 首先 要 感谢 霍 炉 ， 他 的 引荐 让 我 获得 了 
翻译 这 本 书 的 机 会 ， 还 要 感谢 博文 视点 的 周 物 老师 ， 她 谨慎 严格 的 工 
作 态 度 ， 时 刻 提醒 我 不 能 马虎 对 待 这 本 经 典 之 作 ， 还 有 本 书 的 员 编 晓 
菲 ， 她 为 本 书 的 编辑 和 校对 做 了 大 量 细致 而 深入 的 工作 。 

另外 我 还 要 感谢 东北 师范 大 学 文学 院 的 王 确 老师 ， 在 我 求学 期 
间 ， 王 老师 给 予 我 诸多 指点 ， 离 校 时 间 愈 长 ， 傅 是 怀念 和 庆 笠 那 段 经 
历 ， 可 以 说 ， 没 有 与 他 的 相识 ， 便 没有 我 的 今天 。 

翻译 过 程 中 ， 我 虽 力 求 把 握 原 文 ， 语言 通畅 ， 但 翻译 中 的 错误 或 
许 是 在 所 难免 的 ， 对 此 本 人 愿 负 全 部 责任 。 希 望 广大 读者 发 现 错误 能 
及 时 与 我 和 出 版 社 联系 以 便 重 印 时 修正 ， 或 是 以 勘误 的 形式 公布 出 来 


以 惠及 其 他 读者 。 如 果 读 者 有 任何 想法 或 建议 ， 欢 迎 给 我 写 信 ， 我 的 
邮件 地 址 是 : yusheng.regex@gmail.com ° 

如 今 正则 表达 式 已 经 成 为 几乎 所 有 主流 编程 语言 中 的 必 备 元 素 : 
Java、Perl、Python、PHP、Ruby..….. 莫 不 如 此 ， 甚 至 功能 稍 强大 一 些 
的 文本 编辑 工具 ， 都 文 持 正则 表达 式 。 尤 其 是 在 Web 兴起 之 后 ， 开 发 
任务 中 的 一 大 部 分 甚至 全 部 ， 都 是 对 字符 串 的 处 理 。 相 比 简 单 的 字符 
串 比 较 、 查 找 、 替 换 ， 正 则 表达 式 提供 了 强大 得 多 的 处 理 能 力 (最 重 
要 的 是 ， 它 能 够 处 理 “ 符 合 某 种 抽象 模式 ”的 字符 串 ， 而 不 是 固化 的 、 
具体 的 字符 串 ) 。 熟练 运用 它们 ， 能 够 节省 大 量 的 开发 时 间 ， 甚 至 解 
决 一 些 之 前 看 来 是 mission impossible 的 问题 。 

本 书 是 讲解 正则 表达 式 的 经 典 之 作 。 其 他 介绍 正则 表达 式 的 资 
料 ， 往 往 局 限于 具体 的 语法 和 函数 的 讲解 ， 于 语法 细节 处 着 墨 太 多 ， 
忽略 了 正则 表达 式 本 喘 。 这 样 ， 读 者 虽然 对 关于 正则 表达 式 的 具体 规 
定 有 所 了 解 ， 但 终究 是 只 见 树木 不 见 和 森林 ， 遇 上 复杂 的 情况 ， 往 往 束 
手 无 策 ， 举 步 维 艰 。 而 本 书目 第 1 版 开始 便 着 力 于 教会 读者 “以 正则 表 
达 式 来 思考 (think regular expression) ”， 疝 读者 讲授 正则 表达 式 的 精 
He (正则 表达 式 的 各 种 流派 、 匹 配 原 理 、 优 化 原则 ， 等 等 ， 而 不 拘 
泥 于 具体 的 规定 和 形式 。 了 解 这 些 精 髓 ， 再 辅 以 具体 操作 的 文档 ， 读 
者 便 可 做 到 “胸中 有 匡 密 ， 下 笔 如 有 神 ”， 即 便 问 题 无 法 以 正则 表达 式 
来 解决 ， 读 者 也 能 很 快 作出 判断 ， 而 不 必 有 盲目 尝试 ， 徒 费 工 夫 。 

不 了 解 正则 表达 式 的 读者 ， 可 循序 渐进 ， 依 次 阅读 各 草 ， 即 便 之 
前 完全 未 接触 过 正则 表达 式 ， 读 过 前 两 革 ， 世 能 在 心中 描绘 出 概略 的 
图 谱 。 第 3、4、5、6 章 是 本 书 的 重点 ， 也 是 核心 价值 所 在 ， 它 们 分 别 
介绍 了 正则 表达 式 的 特性 和 流派 、 匹 配 原 理 、 实 用 诀 罕 以 及 调 校 措 
施 。 这 样 的 知识 与 具体 语言 无 关 ， 适 用 于 几乎 所 有 的 语言 和 工具 ( 当 
然 ， 如 果 使 用 DFA 引 擎 ， 第 6 章 的 价值 要 打 些 折扣 ) ， 所 谓 “ 大 象 无 
形 ”， 便 是 如 此 。 读 者 如 能 仔细 人 研读， 悉心 损 摩 ， 之 后 解决 各 种 问题 
时 ， 必 定 获 益 菲 浅 。 第 7、8、9、10 章 分 别 讲解 了 Perl、Java、.NET、 
PHP 中 正则 表达 式 的 用 法 ， 看 来 类 似 参考 手册 ， 其 实 是 对 前 面 4 AL 
识 的 包装 ， 将 抽象 的 知识 辅 以 具体 的 语言 规定 ， 以 具体 的 形式 表现 出 
来 。 所 以 ， 心 急 的 读者 ， 在 阅读 这 些 章 下 之 前 ， 最 好 先 通 读 第 3、4、 
5、6 草 ， 以 便 更 好 地 理解 其 中 的 逻辑 和 思路 。 


相信 仔细 阅读 完 本 书 的 读者 ， 定 会 有 登 党 入 室 的 感觉 。 不 但 能 见 

识 到 正则 表达 式 各 种 令 人 眼花 综 乱 的 特性 ， 更 能 够 深入 了 解 表 达 式 、 

匹配 、 引 警 背 后 的 原理 ， 从 而 写 出 复杂 、 神 奇 而 又 高 效 的 正则 表达 
式 ， 快 速 地 解决 工作 中 的 各 种 问题 。 

RB 

2007 年 6 月 于 北京 


重印 件 言 


学 到 不 会 访 .….……. 

博文 视点 的 张 春 雨 编辑 告诉 我 ， 八 次 印刷 的 《精通 正则 表达 式 
(第 3 版 ，》 已 经 全 部 售 散 了 ，O’Reilly 与 电子 工业 出 版 社 续签 了 版 权 
合同 ， 准 备 重新 上 市 ， 让 我 写 一 点 东西 。 

该 写 什 么 好 呢 ? 

2007 年 《精通 》 上 市 时 ， 我 还 在 中 关 村 ， 天 气 好 的 时 候 可 以 望 见 
顺和 园 的 佛 香 阁 ;而 现在 ， 窗 外 景色 已 经 换 成 了 珠江 边 的 小 蛮 腰 ; 对 
正则 表达 式 的 使 用 ， 也 从 随手 挡 来 变 得 生 下 一 一 许多 问题 需要 翻 查 
《精通 》， 翻 查 自己 写 的 《正则 指引 》。 究 其 原因 ， 与 正则 表达 式 直 
接 相 关 的 开发 做 得 少 了 ， 古 话说 * 勤 则 立 ， 嬉 则 荒 >， 就 是 这 个 道理 。 

荒 是 荡 了 ， 毕 竟 还 没 荒废 ,虽然 有 很 多 细节 需要 查阅 ， 但 是 我 很 
清楚 ， 某 个 问题 能 不 能 用 正则 表达 式 解 决 ， 该 怎样 解决 。 或 者 说 ， 虽 
然 手 上 生疏 了 ， 心 里 其 实 没 有 忘记 ， 而 这 一 切 ， 归 源 都 是 之 前 死 哨 过 
《精通 》 的 缘故 。 

在 阅读 《精通 》 之 前 ， 我 已 经 查阅 了 网 上 的 不 少 资 料 ， 对 正则 表 
达 式 有 了 基本 了 解 ， 能 像 模 像 样 地 解决 一 些 实际 问题 ， 可 算 “ 够 
用 ”了 。 这 时 候 遇 见 《 精 通 》 这 样 “ 现 实 价值 不 那么 大 ”的 书 ， 能 静 下 心 
去 阅读 ， 其 实 带 着 点 毕业 不 久 的 傻 气 ， 只 是 单纯 想 把 它 弄 懂 搞 透 。 所 
以 ， 遇 到 匹配 原理 这 类 看 来 没 多 少 实用 价值 的 知识 ， 还 会 愿意 花 时 间 
去 揣摩 、 研 习 。 回 头 想 想 ， 也 正 是 因为 当时 有 这 种 傻 气 ， 可 算是 意外 
的 收获 : 工作 中 经 常 需要 学 习 一 些 工 具 和 原理 ， 虽 然 当 时 也 “学 
会 "了 ， 但 不 久 就 忘 个 精光 ; 相 比 之 下 ， 正 则 表达 式 却 是 学 到 了 “不 会 
忘 ” 的 程度 。 更 典型 的 例子 是 游泳 ， 几 乎 人 人 都 可 以 做 到 “一 朝 学 会 ， 
终身 不 忘 *。 同 样 是 “学 会 "， 为 什么 差距 这 么 大 呢 ? 

这 个 问题 我 想 了 很 久 ， 最 后 的 答案 是 ,“ 学 会 ”的 定义 是 不 同 的 。 

通常 我 们 说 “学 会 > 了 某 项 技术 、 某 门 语言 ， 意 思 是 “凑合 能 用 ”， 
或 者 说 “可 以 对 照 文 档 (Google) 解决 问题 ”的 程度 一 一 你 用 Python 解 
决 了 一 个 问题 ， 就 说 明 你 “学 会 "了 Python ， 哪 管 是 步 步 Google， 还 是 
照抄 现成 的 代码 。 而 我 们 说 “学 会 "了 游泳 ， 意 思 是 可 以 在 水 里 行动 而 


不 沉 下 去 ， 更 重要 的 是 在 游泳 时 不 需要 时 刻 背 诵 各 种 口诀 : 吸 气 一 伸 
手 一 划 水 一 跨 腿 一 抬头 一 呼 气 ......， 如 果 你 在 泳池 里 必须 齐 记 口 记 ， 
是 绝对 谈 不 上 “学 会 ”的 。 

两 者 虽然 都 叫 “ 学 会 >， 其 实 相 差 迎 异 : 第 一 种 “学 会 ”是 “ 照 猫 画 
虎 "， 第 二 种 “学 会 ”是 “融会 贯通 ”， 虽 然 都 可 以 解决 问题 ， 但 从 第 一 
种 “学 会 ”到 达 第 二 种 “学 会 “"， 其 实 需 要 经 历 漫长 的 过 程 。 而 且 ， 两 
种 “学 会 ”都 能 解雇 问题 ， 所 以 在 达到 第 二 种 “学 会 ”的 漫长 过 程 中 ， 你 
很 可 能 感觉 不 到 目 己 的 进步 ， 反 而 会 困惑 继续 学 习 的 意义 旋 至 放弃 
一 一 既然 能 对 着 文档 操作 ， 既 然 有 现成 的 资料 ， 为 什么 要 去 理解 背后 
的 原理 呢 。 

对 我 来 说 ， 第 二 种 “学 会 ”的 好 处 是 显而易见 的 ， 最 重要 的 一 点 束 
是 不 会 坪 记 一 一 学 习 的 时 间 增 长 一 倍 ， 壮 起 的 难度 将 会 增加 十 倍 、 二 
F 倍 甚至 一 百倍 。 这 些 年 来 ， 我 见 到 了 太 多 这 样 的 例子 ， 有 人 每 次 用 
到 正则 表达 式 都 会 抓 狂 ， 都 要 四 处 极力 搜索 、 反 复 育 目 竹 试 ， 花 很 长 
时 间 才 能 并 出 、 蒙 对 解决 方案 ; 男 一 方面 ， 他 们 又 不 愿意 花 时 间 潜 心 
学 习 《 精 通 》 这 样 的 经 典 。 因 为 反复 遗 夸 ， 需 要 反复 学 习 ， 最 终 浪 费 
了 大 量 的 时 间 。 

许多 人 不 愿意 专门 花 时 间 来 学 习 正 则 表达 式 ， 是 认为 它 属于 奇 技 
淫 巧 ， 并 非 工 作 必 须 。 但 这 理由 是 不 成 立 的 : 我 们 大 部 分 人 不 是 作 
家 ， 但 为 了 在 需要 的 时 候 写 得 出 文章 ， 还 是 必须 专门 花 时 间 来 练习 写 
作 。 而 且 ， 专 门 花 时 间 来 学 习 “ 非 必要 ”的 技能 ， 以 后 往往 能 有 意 想 不 
到 的 收获 。 我 真切 体会 到 并 且 懂 得 这 个 道理 ， 恰 好 也 是 与 《精通 》 的 
翻译 有 缘 。 

在 翻译 《精通 》 时 ， 为 了 省 却 重 新 编排 索引 的 矿 烦 ， 需 要 做 到 中 
英文 版 页 页 对 应 ， 于 是 我 专门 学 习 了 修 捷 老师 写 的 《Word HERZ 
术 》， 并 有 旦 亲手 尝试 了 每 个 例子 ， 记 熟 了 有 关 的 概念 和 术语 ， 从 此 学 
会 了 运用 格式 和 样式 的 角度 定义 文档 ， 再 不 用 为 格式 之 类 的 问题 烦 
恼 。 这 些 年 来 ， 虽然 用 得 并 不 多 ， 却 没有 入 记 。 去 年 写作 《正则 指 
引 》 时 ， 我 事先 完整 定义 了 各 种 格式 、 样 式 、 引 用 等 ， 交 稿 时 节省 了 
自己 和 出 版 社 大 量 的 时 间 。 

另 一 个 例子 仍然 与 正则 表达 式 有 关 。 去 年 ， 为 了 写作 《正则 指 
引 》 中 Unicode 的 和 章节， 我 专门 伦 了 时 间 研 读 Unicode 规 范 ， 虽 然 最 终 


《指引 》 中 没有 列 出 学 到 的 全 部 知识 ， 但 我 对 Unicode 的 理解 已 经 不 再 
限于 “在 程序 中 设 定 Unicode 编码 即 可 >。 前 几 天 ， 有 位 同事 遇 到 
Unicode 字 符 A (U+00C4) 无 法 打印 的 问题 ， 于 是 我 建议 他 使 用 A 和 - 

(U+0041 和 U+0308) 的 两 个 Unicode 字 符 来 表示 (按照 Unicode 规 范 ， 
两 个 字符 可 以 “组 合成 一 个 字符 ) ， 果 然 解决 了 问题 。 这 上 段 经 历 再 次 
证 明 ， 真 的 学 会 了 ， 就 真 的 不 会 忘 。 

亚 里 士 多 德 兽 说 : “Arete, eR eR SHEN, 
等 待 期 望 的 结果 。” 然 而 很 多 时 候 ， 虽 然 我 们 以 为 自己 可 以 解决 ， 但 是 
之 前 学 过 的 技能 已 经 遗忘 ， 于 是 施展 起 来 步履 沉重 、 举 步 维 艰 ， 最 后 
只 能 精 疲 力 竟 地 等 待 结果， 目 然 与 笠 福 绝缘 。 相 反 ， 如 果 我 们 能 把 重 
要 的 技能 都 真正 学 会 ， 学 到 不 会 忘 的 程度 ， 自 然 可 以 接近 幸福 。 如 果 
你 想 收 获 自如 鸭 驭 正则 表达 式 的 幸福 ， 不 妨 从 这 本 书 开 始 吧 。 
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Preface 

本 书 天 注 的 是 一 种 强大 的 工具 一 一 “正则 表达 式 ”。 它 将 教会 读者 
如 何 使 用 正则 表达 式 解 决 各 种 问题 ， 以 及 如 何 充分 使 用 支持 正则 表达 
式 的 工具 和 语言 。 许 多 天 于 正则 表达 式 的 文档 都 没有 介绍 这 种 工具 的 
能 力 ， 而 本 书 的 目的 正 是 让 读者 “精通 ”正则 表达 式 。 

许多 种 工具 都 支持 正则 表达 式 〈 文 本 编辑 器 、 文 字 处 理 软件 、 系 
GLA. ASB, SS) ， 不 过 ， 要 想 充 分 挖掘 正则 表达 式 的 能 
力 ， 还 是 应 当 将 它 作为 编程 语言 的 一 部 分 。 例 如 Java、JScript、Visual 
Basic ` VBScript ` JavaScript ` ECMAScript ` C ` C++ ` C# ` elisp ` 
Perl ` Python ` Tcl » Ruby ` PHP ` sed#lawk ° $X E, Æ— H Eyi 
语言 编写 的 程序 中 ， 正 则 表达 式 扮演 了 极其 重要 的 角色 。 

正则 表达 式 能 够 得 到 众多 语言 和 工具 的 支持 是 有 原因 的 : 它们 极 
其 有 用 。 从 较 低 的 层面 上 来 说 ， 正 则 表达 式 描 述 的 是 一 串 文 本 (a 
chunk of text) 的 特征 。 读 者 可 以 用 它 来 验证 用 户 输入 的 数据 ， 或 者 也 
可 以 用 它 来 检索 大 量 的 文本 。 从 较 高 的 层面 上 来 说 ， 正 则 表达 式 容 许 
用 户 掌 探 他 们 目 己 的 数据 一 一 控制 这 些 数据 ， 让 它们 为 目 己 服务 。 掌 
握 正 则 表达 式 ， 丈 是 掌握 目 己 的 数据 。 

本 书 的 价值 

The Need for This Book 

本 书 的 第 1 版 写 于 1996 年 ， 以 满足 当时 存在 的 需求 。 那 时 还 没有 
天 于 正则 表达 式 的 详尽 文档 ， 所 以 它 的 大 部 分 能 力 还 没有 被 发 掘 出 
来 。 正 则 表达 式 文 档 倒 是 存在 ， 但 它们 都 立足 于 “低层 次 视角 ”。 我 认 
为 ， 那 种 情况 束 好 像 古 教 一 些 人 英文 字母 ， 然 后 就 指望 他 们 会 说 话 。 
第 2 版 与 第 1 版 间隔 了 五 年 半 的 上 时间， 这 期 间 ， 互 联网 迅速 流行 起 来 ， 
正则 表达 式 的 形式 也 有 了 极 大 的 扩张 ， 这 或 许 并 不 是 巧合 。 几 乎 所 有 
工具 软件 和 程序 语言 支持 的 正则 表达 式 也 变 得 更 加 强大 和 易于 使 用 。 
Perl、Python、Tcl、Java 和 Visual Basic 都 提供 了 新 的 正则 支持 。 新 出 现 
的 支持 内 建 正 则 表达 式 的 语言 ， 例 如 PHP、Ruby、C 芳 ， 也 已 经 发 展 
壮大 ， 流 行 开 来 。 在 这 段 时 间 里 ， 本 书 的 核心 一 一 如 何 真正 理解 正则 


表达 式 ， 以 及 如 何 使 用 正则 表达 式 一 一 仍然 保持 着 它 的 重要 性 和 参考 
价值 。 

不 过 ， 第 工 版 已 经 逐渐 脱离 了 时 代 ， 必 须 加 以 修订 ， 才 能 适应 新 
的 语言 和 特性 ， 也 才能 对 应 正则 表达 式 在 互联 网 世界 中 越 来 越 重 要 的 
地 位 。 第 2 版 出 版 于 2002 年 ， 这 一 年 的 里 程 碑 是 javautil.regex ` 
Microsoft.NET Framework 和 Perl 5.8 的 诞生 。 第 2 INEM ei Site 
容 。 关 于 第 2 版 ， 我 唯一 的 遗憾 丈 是 ， 它 没有 提 及 PHP。 目 第 2 版 诞生 
以 来 的 4 年 里 ，PHP 的 重要 性 一 直 在 增加 ， 所 以 ， 弥 补 这 一 缺憾 是 非 
常 姐 切 的 。 

第 3 版 在 前 面 的 章节 中 增加 了 PHP 的 相关 内 容 ， 并 专门 为 理解 和 
应 用 PHP 的 正则 表达 式 增 加 了 一 章 全 新 的 内 容 。 另 外 ， 该 版 对 Java 的 
章节 也 进行 了 修订 ， 做 了 可 观 的 扩充 ， 反 映 了 Javal.5 和 Java1.6 的 新 特 
性 。 

目标 读者 

Intended Audience 

任何 有 机 会 使 用 正则 表达 式 的 人 ， 都 会 对 本 书 感 兴趣 。 如 有 果 您 还 
不 了 解 正 则 表达 式 能 提供 的 强大 功能 ， 这 本 书展 示 的 全 源 世 界 将 会 让 
您 受益 匪 浅 。 即 使 您 认为 目 己 已 经 是 掌握 正则 表达 式 的 高 手 了 ， 这 本 
书 也 能 够 深化 您 的 认识 。 第 1 版 面世 后 ， 我 时 常会 收 到 读者 的 电子 邮 
件 反 映 说 “ 读 这 本 书 之 前 ， 我 以 为 自己 了 解 正则 表达 式 ， 但 现在 我 才 真 
正 了 解 ”。 

以 与 文本 打交道 为 工作 (如 Web 开 发 ) 的 程序 员 将 会 发 现 ， 这 本 
AAT PRS EEE, AA EZ T AT ` HAS > DAB, A 
及 能 够 立刻 投入 到 实用 中 的 知识 。 在 其 他 任何 地 方 都 难以 找到 这 样 丰 
富 的 细节 。 

正则 表达 式 是 一 种 思想 一 -各 种 工具 以 各 种 方式 (数目 远 远 超过 
本 书 的 列举 ) 来 实现 它 。 如 果 读 者 理解 了 正则 表达 式 的 基本 思想 ， 掌 
握 某 种 特殊 的 实现 歼 是 易如反掌 的 事情 。 本 书 关 注 的 瓯 是 这 种 思想 ， 
所 以 其 中 的 许多 知识 并 不 受 例子 中 所 用 的 工具 软件 和 语言 的 束缚 。 

如 何 阅读 

How to Read This Book 


这 本 书 既 是 教程 ， 又 是 参考 手册 ， 还 可 以 当 故 事 看 ， 这 取决 于 读 
者 的 阅读 方式 。 熟 悉 正则 表达 式 的 读者 可 能 会 觉得 ， 这 本 书 马上 残 能 
当 作 一 本 详细 的 参考 手册 ， 读 者 可 以 直接 跳 到 目 己 需要 的 章 丰 。 不 
过 ， 我 并 不 鼓励 这 样 做 。 

要 想 充 分 利用 这 本 书 ， 可 以 把 前 6 章 作 为 故事 来 读 。 我 发 现 ， 某 
些 思维 习惯 和 思维 方式 的 确 有 助 于 完整 的 理解 ， 不 过 最 好 还 是 从 这 几 
章 的 讲解 中 学 习 它 们 ， 而 不 是 仅仅 记 住 其 中 的 几 张 列表 © 

故事 是 这 样 的 ， 前 6 章 是 后 面 4 章 包括 Perl、Java、.NET 和 
PHP 一 一 的 基础 。 为 了 帮助 读者 理解 每 一 部 分 ， 我 交叉 使 用 各 章 的 知 
识 ， 为 了 提供 尽 可 能 方便 的 索引 ， 我 投入 了 大 量 的 精力 (全 书 中 有 超 
过 1 200 处 交 双 引用， 它们 以 符号 加 页 码 的 形式 标注 ) 。 

在 读 完 整个 故事 以 前 ， 最 好 不 要 把 本 书 作 为 参考 手册 。 在 开始 阅 
读 之 前 ， 读 者 可 以 参考 其 中 的 表格 ， 例 如 第 92 页 的 图 表 ， 想 象 它 代表 
了 需要 掌握 的 相关 信息 。 但 是 ， 还 有 大 量 背 景 信息 没有 包含 在 图 表 
中 ， 而 是 隐藏 在 故事 里 。 读 者 阅读 完整 个 故事 之 后 ， 会 对 这 些 问 题 有 
个 清晰 的 概念 ， 哪 些 能 够 记 起 来 ， 哪 些 需要 温习 。 


组 织 结 构 

Organization 

全 书 共 10 章 ， 可 以 从 罗 辑 上 粗略 地 分 为 三 类 ， 下 面 症 总 体 概 哎 : 
导 引 


第 1 章 : 介绍 正则 表达 式 的 基本 概念 。 

第 2 章 : 考察 利用 正则 表达 式 进 行文 本 处 理 的 过 程 。 
第 3 章 : 提供 对 于 特性 和 工具 软件 的 概述 以 及 简 史 。 
细节 

第 4 章 : 揭示 了 正则 表达 式 的 工作 原理 的 细节 。 
第 5 章 : 利用 第 4 章 的 知识 ， 继 续 学 习 各 种 例子 。 
第 6 章 : 详细 讨论 效率 问题 。 

特定 工具 的 知识 

第 7 章 : 详细 讲解 Penl 的 正则 表达 式 。 


第 8 章 : 讲解 Sun 提 供 的 java.utilregex 包 。 

第 9 章 : 讲解 .NETI 的 语言 中 立 的 正则 表达 式 包 。 

第 10 革 : 讲解 PHP 中 提供 正则 功能 的 preg 套 件 。 

导 引 部 分 会 把 完全 的 门外汉 变 成 * 对 问题 有 感觉 ”的 新 手 。 对 正则 
表达 式 有 一 定 经 难 的 读者 完全 可 以 快速 翻阅 这 些 章节 ， 不 过 ， 即 使 是 
对 于 相当 有 经 验 的 读者 来 说 ， 我 仍然 要 特别 推荐 第 3 章 。 

e 第 1 章 正则 表达 式 入 门 ， 是 为 完全 的 门外汉 准备 的 。 我 以 应 用 相 
当 广 泛 的 程序 egrep 为 例 来 介绍 正则 表达 式 ， 我 也 提供 了 我 的 视角 : 如 
何 “ 理 解 ?正则 表达 式 ， 来 为 后 面 章节 所 包括 的 高 级 概念 打下 坚实 的 基 
础 。 即 使 是 有 经 难 的 读者 ， 浏 览 本 章 也 会 有 所 收获 。 

e 第 2 章 入 门 示 例 拓 展 ， 考 察 了 文 持 正则 表达 式 的 程序 设计 语言 的 
真实 文本 处 理 过 程 。 附 加 的 示例 提供 了 后 面 章节 详细 讨论 的 基础 ， 也 
展示 了 局 级 正则 表达 式 调 校 背 后 的 重要 思考 过 程 。 为 了 让 读者 学 会 “ 
则 表达 式 的 套路 ”， 这 章 出 现 了 一 个 复杂 问题 ， 并 讲解 了 两 种 全 然 不 相 
天 的 工具 如 何 分 别 通过 正则 表达 式 来 解决 它 。 

e 第 3 章 正则 表达 式 的 特性 和 流派 概览 ， 提 供 了 当前 经 常 使 用 的 工 
有 具 的 多 种 正则 表达 式 的 概 充 。 因 为 历史 的 混乱 ， 当 前 常用 的 正则 表达 
式 的 类 型 可 能 差异 巨大 。 此 章 同 时 介绍 了 正则 表达 式 以 及 使 用 正则 表 
达 式 的 工具 的 历史 和 演化 历程 。 本 章 末 尾 也 提供 了 “高 级 话题 引导 ”。 
此 引导 是 读者 学 习 此 后 高 级 内 容 的 路 线 图 。 

细节 

The Details 

了 解 了 基础 知识 之 后 ， 读 者 需要 弄 明日 “如 何 使 用 ”及 “这 么 做 的 原 
KH” o WRIA NEA F, BERERA, SE 
在 任何 时 间 、 任 何 地 点 应 用 关于 它 的 知识 。 

e 第 4 章 表达 式 的 匹配 原理 ， 循 序 渐进 地 导入 本 书 的 核心 。 它 从 实 
践 的 角度 出 发 ， 考 察 了 正则 引擎 真实 工作 的 重要 的 内 在 机 制 。 人 懂得 正 
则 表达 式 如 何 处 理工 作 细节 ， 对 读者 掌握 它们 大 有 神 益 。 

。 第 5 章 正则 表达 式 实 用 技巧 ， 教 育 读者 在 高 层次 和 实际 的 运用 中 
应 用 知识 。 这 一 章 会 详细 讲解 常见 (但 复杂 ) 的 问题 ， 目 的 在 于 拓展 
和 深化 读者 对 于 正则 表达 式 的 认识 。 


。 第 6 章 打造 高 效 正则 表达 式 ， 考 察 真 实生 活 中 大 多 数 程序 设计 语 
言 提 供 的 正则 表达 式 的 高 效 结果 。 本 章 运用 第 4 章 和 第 5 章 详细 讲解 的 
知识 ， 来 开发 引擎 的 能 力 ， 并 避免 其 中 的 缺陷 。 

特定 工具 的 知识 

Tool-Specific Information 

学 习 完 第 4、5、6 章 的 读者 ， 不 太 需 要 知道 特定 的 实现 。 不 过 ， 
我 还 是 用 了 4 个 整 章 来 讲解 4 种 流行 的 语言 。 

e 第 7 章 Perl， 详 细 讲 解 了 Perl 的 正则 表达 式 ，Perl 大 概 是 目前 最 流 
行 的 主要 的 正则 表达 式 编程 语言 。 在 Perl 中 ， 与 正则 表达 式 相 关 的 操 
作 符 只 有 四 个 ， 但 它们 组 合 出 的 选项 和 特殊 情形 市 来 了 大 量 的 程序 选 
项 一 一 同时 还 有 陷阱 。 对 没有 经 验 的 开发 人 员 来 说 ， 这 种 极其 丰富 的 
选项 能 够 让 他 们 迅速 从 概念 转 回 程序 ， 当 然 也 可 能 是 雷 场 。 本 章 的 详 
细 介 绍 有 助 于 给 读者 指出 一 条 光明 大 道 。 

e 第 8 章 Java， 详 细 介 绍 了 java.util.regex 包 ， 从 Java 1.4 以 后 ， 它 已 
经 成 为 了 Java 语 言 的 标准 部 分 。 本 章 主要 关注 的 是 Java 1.5， 但 也 提 及 
了 它 与 Java 1.4.2 和 Java 1.6 的 差别 。 

e 第 9 章 .NET， 是 微软 尚未 提供 的 .NET 正 则 表达 式 库 的 文档 。 无 
论 使 用 VB.NET ` CH ` C++ ` JScript > VBScript ` ECMAScriptit Æ (Ë 
用 .NET 组 件 的 其 他 语言 ， 本 章 都 提供 了 详细 内 容 ， 让 读者 能 够 充分 利 
用 .NET 的 正则 表达 式 。 

e 第 10 章 PHP， 人 简要 介绍 了 PHP 内 符 的 多 个 正则 引擎， 并 详细 介 
绍 了 preg 正 则 表达 式 套 件 (regex engine) 的 类 型 和 API， 这 些 是 由 
PCRE 正 则 表达 式 库 提供 的 。 

体例 说 明 

Typographical Conventions 

在 进行 (或 者 谈论 ) 详细 的 和 复杂 的 文本 处 理 时 ， 保 持 精 确 性 是 
很 重要 的 。 差 一 个 空格 字符 ， 可 能 导致 截然 不 同 的 结 末 ， 上 所 以 我 会 在 
本 书 中 使 用 下 面 的 惯例 : 

e 正 则 表达 式 以 this| 的 形式 出 现 。 两 端的 符号 表示 “里 面 有 一 个 
正则 表达 式 ”， 而 正则 表达 式 文字 (例如 用 来 检索 的 表达 式 ) 


DA thi FET EM o AHR, HS PA I AE SA ES | Sp tN 2 E EY 
X, RITE RR EM] o EE, FARRE E DURA E, m 
不 会 用 到 上 面 两 种 符号 。 

e 在 文字 文本 和 表达 式 内 部 的 省 略 号 会 被 特别 标 出 。 例 如 ，[.…] 表 
示 一 对 方 括号 ， 之 间 的 内 容 无 天 暴 要 ， 而 [.….] 表 示 一 对 方 括号 ， 其 中 
包含 三 个 句点 。 

e 如 果 没 有 明确 数字 ， 可 能 很 难 判断 “a b” 之 间 有 多 少 空格 ， 所 以 
出 现在 正则 表达 式 和 文字 文本 中 的 空格 以 “” 表 示 。 这 样 “a…b” 束 清楚 
ae 


e 我 使 用 可 见 的 制 表 符 ， 换 行 竺 和 回 车 字符 : 


空格 字符 
制 表 符 
换行 符 
E 回 车 字符 


e 有 时候， 我 会 使 用 下 画 线 或 有 人 色 背景 高 党 标注 文字 文本 或 正则 
表达 式 的 一 部 分 。 下 面 这 人 句 话 中 ， 下 夯 线 的 部 分 表示 表达 式 真正 匹配 
的 部 分 : 


Because ' cat, matches It"indicatesyourcat"is... "instead of 


the word'cat',we realize... 

这 个 例子 中 ， 下 夯 线 的 部 分 高 党 标记 了 表达 式 中 添加 的 字符 : 

To make this useful,we can wrap i Subject|Date | with 
parentheses,and append a colon and a space.This yields 


| (Subject |Date) : "| 
LJ | a | 


e 本 书包 含 了 大 量 的 细节 和 例子 ， 所 以 我 设置 了 超过 1 200 处 的 交 
叉 引 用 ， 帮 助 读者 理解 。 它 们 通常 表示 为 “S123”， 意 思 是 “请 参阅 第 
123 页 ”。 举 个 例子 :“... 的 说 明 在 表 8-2 中 (367) ”。 

练习 


Exercises 


有 时 候 我 会 问 个 问题 ， 帮 助 读 者 理解 正在 讲解 的 概念 ， 尤 其 是 在 
前 几 章 这 种 问题 更 多 。 它 们 并 不 是 摆设 ， 我 硕 望 读者 在 继续 阅读 之 前 
认真 想 想 。 请 记 住 我 的 话 ， 不 要 忽略 它们 的 重要 意义 ， 本 书 中 这 样 的 
问题 并 不 多 。 它 们 可 以 当 作 目 我 测试 题 ， 如 果 不 是 几 句 话 就 能 说 明白 
的 问题 ， 最 好 是 在 复习 相关 革 太 之 后 再 继续 阅读 。 

为 了 避免 读 者 直接 看 到 问题 的 答案 ， 我 使 用 了 一 点 技巧 : 问题 的 
答案 都 必须 翻 页 才能 看 到 。 通 第 你 必须 翻 过 一 页 才能 看 到 标 着 机 的 答 
和 案 。 这 样 答案 在 你 思考 问题 的 时 候 没 法 直接 看 到 ， 但 又 很 容易 获得 。 

链接 、 人 代码、 勘误 及 联系 方式 

Links,Code,Errata,and Contacts 

写 第 1 版 时 ， 我 发 现 修改 书本 上 的 URL， 保 持 与 实际 一 致 是 件 很 
费 工 夫 的 事情 ， 所 以 ， 我 没有 在 书后 罗列 一 个 URL 附 录 ， 而 是 提供 统 

http://regex.info 

在 这 里 你 可 以 找到 与 正则 表达 式 相关 的 链接 ， 书 中 的 所 有 代码 ， 
可 检索 的 索引 以 及 其 他 资源 。 本 书 也 可 能 存在 错误 @ ， 所 以 我 提供 了 
勘误 。 

如 果 你 找到 书 中 的 错误 ， 或 者 仅仅 是 希望 给 我 写 几 人 句 话 ， 请 写 邮 
件 到 : jfriedl@regex.info ° 

我 们 已 尽力 核验 本 书 所 提供 的 信息 ， 尽 管 如 此 ， 仍 不 能 保证 本 书 
完全 没有 瑕 狐 ， 而 网 络 世界 的 变化 之 快 ， 也 使 得 本 书 永 不 过 时 的 保证 
成 为 不 可 能 。 如 果 读 者 发 现 本 书 内 容 上 的 错误 ， 不 管 是 痪 字 、 错 字 ` 
语意 不 消 ， 甚 至 古 技 术 错 误 ， 我 们 都 竭诚 虚心 接受 读者 指教 。 如 果 您 
有 任何 问题 ， 请 按照 以 下 的 联系 方式 与 我 们 联系 。 

奥 莱 理 软件 (北京 ;有 限 公司 

北京 市 海淀 区 知春 路 49 号 希 格 玛 公寓 B 座 809 室 

邮政 编码 : 100080 

网 页 : http: /www.oreilly.com.cn 


E-mail:info@mail.oreilly.com.cn 


与 本 书 有 关 的 在 线 信 息 如 下 所 示 。 


http: //www.oreilly.com/catalog/regex3/ ( 原 书 ) 
http: //www.oreilly.com.cn/book.php? bn=978-7-121-04684-1 (中 
文 版 ) 


第 1 章 正则 表达 式 入 门 


Introduction to Regular Expressions 

想象 一 下 这 幅 图 景 ， 你 需要 检索 某 台 Web 服 务 器 上 的 页 面 中 的 重 
复 单词 (例如 “this this”) ， 进 行 大 规模 文本 编辑 时 ， 这 是 一 项 常见 的 
任务 。 程 序 必 须 满 足下 面 的 要 求 : 

e 能 检查 多 个 文件 ， 挑 出 包含 重复 单词 的 行 ， 高 亮 标记 每 个 重复 
单词 (使 用 标准 ANSI 的 转 义 字符 序列 (escape sequence) ) ， 同 时 必 
须 显示 这 行文 字 来 目 哪 个 文件 。 

e 能 跨行 查找 ， 即 使 两 个 单词 一 个 在 某 行 末 尾 而 另 一 个 在 下 一 行 
的 开头 ， 也 算 重 复 单词 。 

e 能 进行 不 区 分 大 小 写 的 查找 ， 例 如 "The the.…， 重 复 单 词 之 间 可 
以 出 现任 意 数 量 的 空白 字符 (空格 符 、 制 表 符 、 换 行 符 之 类 ) (译注 
1) > 

e 能 查找 用 HTML tag 分 隅 的 重复 单词 。HTML tag 用 于 标记 互联 网 
页 上 的 文本 ， 例 如 ， 粗 体 单 词 是 这 样 表示 的 : itis <B>very</B> 
very important...’ ° 

这 些 问题 并 不 容易 解决 ， 但 又 不 能 不 解决 。 我 在 写作 本 书 的 手稿 
时 ， 曾 用 一 个 工具 来 检查 已 经 写 好 的 部 分 ， 我 惊奇 地 发 现 ， 其 中 竟 有 
那么 多 的 重复 单词 。 能 够 解决 这 种 问题 的 编程 语言 有 许多 ， 但 是 用 文 
持 正 则 表达 式 的 语言 来 处 理会 相当 人 简单 。 

正则 表达 式 (Regular Expression) 是 强大 、 便 捷 、 高 效 的 文本 处 
理工 具 。 正 则 表达 式 本 号 ， 加 上 如 同一 门 袖珍 编程 语言 的 通用 模式 表 
示 法 (general pattern notation) ， 赋 予 使 用 者 描述 和 分 析 文 本 的 能 
配合 上 特定 工具 提供 的 额外 支持 ， 正 则 表达 式 能 够 添加 、 删 除 、 分 
离 、 县 加 、 插 入 和 修整 各 种 类 型 的 文本 和 数据 。 

正则 表达 式 的 使 用 难度 只 相当 于 文本 编辑 需 的 搜索 命令 ， 但 功能 
却 与 完整 的 文本 处 理 语言 一 样 强大 。 本 书 将 向 读者 展示 正则 表达 式 提 
高 生产 率 的 诸多 办 法 。 它 会 教导 读者 如 何 学 会 用 正则 表达 式 来 思考 


(think regular expressions) ， 以 便于 掌握 它们 ， 充 分 利用 它们 的 强大 
功能 。 

如 果 使 用 当今 流行 的 程序 设计 语言 ， 解 决 重复 单词 问题 的 完整 程 
序 可 能 仅仅 只 需要 几 行 代码 。 使 用 一 个 正则 表达 式 的 搜索 和 替换 命 
令 ， 读 者 就 可 以 查找 文档 中 的 重复 单词 ， 并 把 它们 标记 为 高 亮 。 加 上 
男 一 个 ， 你 可 以 删除 所 有 不 包含 重复 单词 的 行 (只 留 下 需要 在 结果 中 
出 现 的 行 ) 。 最 后 ， 利 用 第 三 个 正则 表达 式 ， 你 可 以 确保 结果 中 的 所 
有 行 都 以 它 所 在 文件 的 名 字 开 头 。 在 下 一 章 里 ， 我 们 会 看 到 用 Perl 和 
Java 编 写 的 程序 。 

宿主 语言 (例如 Perl、Java 以 及 VB.NET) 提供 了 外 围 的 处 理 支 
持 ， 但 是 真正 的 能 力 来 自 正 则 表达 式 。 为 了 蜀 驭 这 种 语言 ， 满 足 自 己 
的 需求 ， 读 者 必须 知道 如 何 构建 正则 表达 式 ， 才 能 识别 符合 要 求 的 文 
本 ， 同 时 忽略 不 需要 的 文本 。 然 后 ， 就 可 以 把 表达 式 和 语言 文 持 的 构 
建 方式 结合 起 来 ， 真 正 处 理 这 些 文本 〈 加 入 合适 的 高 亮 标记 代码 ， 删 
除 文本 ， 修 改 文本 ， 等 等 ) 。 


解决 实际 问题 

Solving Real Problems 

掌握 正则 表达 式 ， 可 能 带 来 超 乎 你 之 前 想象 的 文本 处 理 能 力 。 
一 天 ， 我 都 依靠 正则 表达 式 解 决 各 种 大 大 小 小 的 问题 (通常 的 情况 
是 ， 问 题 本 号 并 不 复杂 ， 但 没有 正则 表达 式 就 成 了 大 问题 ) 。 

要 说 明正 则 表达 式 的 价值 ， 可 以 举 一 个 用 正则 表达 式 解 决 大 而 重 
要 的 问题 的 例子 ， 但 是 它 不 一 定 能 代表 正则 表达 式 在 平时 解决 的 那 
些 “ 不 值 一 提 ” (uninteresting) 的 问题 。 这 里 的 “不 值 一 提 ” 是 指 这 类 问 
题 并 不 能 成 为 谈资 ， 可 是 不 解决 它们 ， 你 就 没 法 继续 干 活 。 

举 个 简单 的 例子 ， 我 需要 检查 许多 文件 (事实 上 ， 本 书 的 手稿 存 
放 在 70 个 文件 中 ) ,确保 每 一 行 中 ‘SetSize 出 现 的 次 数 
与 ‘ResetSize’ 的 一 样 多 。 为 了 应 付 复杂 的 情况 ， 我 还 需要 考虑 大 小 写 
的 情况 (举例 来 说 ，'setSIZE’ 也 算 做 ‘SetSize’) 。 人 工 检查 32 000 47 
文字 显然 不 现实 。 

即便 使 用 文本 编辑 器 的 “单词 查找 ”功能 ， 也 不 够 方便 ， 励 其 是 对 
所 有 文件 进行 同样 的 操作 ， 何 况 还 需要 考虑 所 有 可 能 的 大 小 写 情 况 。 

正则 表达 式 就 是 解决 这 个 问题 的 灵丹妙药 。 只 需要 一 个 简单 的 命 
令 ， 我 丈 能 够 检查 所 有 的 文件 ， 获 得 我 需要 知道 的 结 有 末 。 有 时间 是 : 写 
命令 大 概 15 秒 ， 检 索 所 有 的 数据 实际 只 花 了 2 秒 。 这 真是 棒 极 了 (如 果 
您 想 知 道 这 是 怎么 做 到 的 ， 不 妨 现在 就 翻 到 第 36 页 ) ! 

再 举 一 个 例 了 于 ， 我 曾 帮助 一 个 朋友 处 理 远 端 机 器 上 的 某 些 E- 
mail， 他 和 希望 我 把 他 邮箱 文件 中 的 消息 作为 列表 发 送 给 他 。 我 可 以 把 
整个 文件 导入 文本 编辑 器 ， 手 工 删除 所 有 信息 ， 只 留 下 邮件 头 中 的 几 
行 ， 作 为 内 容 的 列表 。 尽 管 文 件 不 是 很 大 ， 连 接 速 度 也 不 算 慢 ， 这 样 
的 任务 还 是 很 耗费 时 间 而 且 很 乏味 。 而 且 ， 示 见 他 的 邮件 正文 ， 也 令 
BIEI o 

正则 表达 式 再 一 次 提供 了 帮助 ! 我 用 一 个 简单 的 命令 (使 用 本 章 
稍 后 提 到 的 一 个 常用 工具 egrep) 显示 每 封 邮件 的 From: 和 Subject: F 


段 。 为 了 告诉 egrep 我 需要 提取 哪些 行 ， 我 使 用 了 正则 表达 式 ^ 
(From|Sbuject) : | ° 

朋友 得 到 这 个 列表 之 后 ， 让 我 找 一 封 特殊 的 (5 000 行 ! ) 邮件 。 
使 用 文本 编辑 器 或 者 邮件 系统 来 提取 一 封 邮件 无 疑 非常 耗 时 。 相 反 ， 
我 借助 男 一 个 工具 (叫做 sed) ， 同 样 使 用 正则 表达 式 来 描述 文件 中 
我 需要 的 内 容 。 这 样 ， 我 能 迅速 而 方便 地 提取 和 发 送 需 要 的 邮件 。 

使 用 正则 表达 式 广 省 下 来 的 时 间或 许 并 不 能 让 人 “激动 "， {ELSA EL 
把 时 间 消 耗 在 文本 编辑 絮 中 要 好 。 如 果 我 不 知道 有 正则 表达 式 这 种 玩 
意 儿 ， 根 本 束 不 会 想到 还 有 别 的 解决 办 法 。 所 以 ， 这 个 故事 告诉 我 
们 ， 正 则 表达 式 和 相关 的 工具 能 够 让 我 们 以 可 能 未 曾 想 过 的 方式 来 解 
决 问题 。 

一 旦 掌握 了 正则 表达 式 ， 你 就 会 知道 到 它 位 直 是 工具 中 的 无 价 之 
宝 ， 你 也 难以 想象 之 前 那些 没有 正则 表达 式 的 日 子 是 怎么 度 过 的 ( 注 
1) ° 


全 面 掌握 正则 表达 式 是 很 有 用 的 。 本 书 提 供 了 掌握 这 种 技能 所 需 
要 的 信息 ， 我 同时 也 和 希望， 这 本 书 也 提供 了 促使 你 学 习 的 动机 。 


作为 编程 语言 的 正则 表达 式 


Regular Expressions as a Language 

如 果 没 有 正则 表达 式 相 关 经 验 ， 读 者 可 能 无 法 理解 上 个 例子 中 正 
则 表达 式 A (From|Subject) : , 的 意义 ， 但 是 这 个 表达 式 并 没有 什么 
神奇 之 处 。 其 实 魔 术 本 身 也 不 神奇 ， 只 是 缺乏 训练 的 普通 观众 不 明白 
魔术 师 掌 握 的 那些 技巧 而 已 。 如 果 你 也 懂得 如 何在 手中 藏 一 张 牌 ， 那 
么 ， 熟 练 之 后 ， 你 也 可 以 “ 变 魔术 ”。 外 语 也 十 这 样 一 一 一 旦 掌握 了 一 
门 外 语 ， 你 器 不 会 觉得 它 像 天 书 了 。 


以 文件 名 做 类 比 


The Filename Analogy 

选择 这 本 书 的 读者 ， 大 概 对 “正则 表达 式 ” 多 少 有 点 认识 。 即 便 没 
有 ， 也 应 该 熟悉 其 中 的 基本 概念 。 

我 们 都 知道 ，reporttxt 是 一 个 文件 名 ， 但 是 ， 如 果 你 用 过 Unix 或 
者 DOS/Windows 的 话 ， 就 会 知道 “类 .txt”* 能 够 用 来 选择 多 个 文件 。 在 此 
类 文件 名 〈 称 为 “文件 群 组 ”file globs 或 者 “通配符 ”wildcards) 中 ， 有 些 
字符 具有 特殊 的 意义 。 星 号 表示 “任意 文本 >”， 问 号 表示 “任意 单个 字 
符 ”。 所 以 ， 文 件 群 组 < 类 .txt* 以 能 够 匹配 字符 的 “类 ， 符号 开头 ， 以 普 
通 文字 let 结尾 ， 所 以 ， 它 的 意思 是 : 选择 以 任意 文本 开头 ， 以 .txt 
结尾 的 所 有 文件 。 

大 多 数 系 统 都 提供 了 少量 的 附加 特殊 字符 (additional special 
characters) ， 但 是 ， 总 的 来 说 ， 这 些 文件 名 模式 (filename patterns) 
的 表达 能 力 还 很 有 限 。 不 过 ， 因 为 这 类 问题 的 领域 很 狭 罕 只 涉及 
文件 名 ， 所 以 这 算 不 上 缺陷 。 

不 过 ， 处 理 普 通 的 文本 就 没有 这 么 简单 了 。 散 文 、 诗 、 程 序 代 
I ` IRE ` HTML ` RK ANK... 到 你 想 得 出 的 任何 文本 。 如 果 
某 种 特殊 的 需求 足够 专业 ， 例 如 * 选 择 文件 ”， 我 们 可 以 发 明 一 些 特殊 
的 办 法 和 工具 来 解决 问题 。 不 过 ， 近 年 来 ， 一 种 “通用 的 模式 语 


B” (generalized pattern language) DARRER, CDSE K, fit 
能 力也 很 强 ， 可 以 用 来 解决 各 种 问题 。 不 同 的 程序 以 不 同 的 方式 来 实 
现 和 使 用 这 种 语言 ， 但 是 综合 来 说 ， 这 种 功能 强大 的 模式 语言 和 模式 
本 身 被 称 为 “正则 表达 式 ” (regular expression) ° 


以 语言 做 类 比 


The Language Analogy 

完整 的 正则 表达 式 由 两 种 字符 构成 。 特 殊 字 符 (special 
characters ， 例如 文件 名 例子 中 的 类 ) 称 为 “元 字 
符 ” (metacharacters) ， 其 他 为 “文字 ” (literal) ， 或 者 是 普通 文本 字 
符 (normal text characters) 。 正 则 表达 式 与 文件 名 模式 (filename 
pattern) 的 区 别 就 在 于 ， 正 则 表达 式 的 元 字符 提供 了 更 强大 的 描述 能 
力 。 文 件 名 模式 只 为 有 限 的 需求 提供 了 有 限 的 元 字符 ， 但 是 正则 表达 
式 “ 语 言 2 为 高 级 应 用 提供 了 丰富 而 且 描 述 力 极 强 的 元 字符 。 

为 了 便于 理解 ， 我 们 可 以 把 正则 表达 式 想象 为 普通 的 语言 ， 普 通 
字符 对 应 普通 语言 中 的 单词 ， 而 元 字符 对 应 语法 。 根 据 语 言 的 规则 ， 
按照 语法 把 单词 组 合 起 来 ， 就 会 得 到 能 传达 思想 的 文本 。 在 E-mail 的 
例子 中 ， 我 用 正则 表达 式 4 (From| Subject): 来 寻找 以 From: :或 
‘Subject: 开头 的 行 。 下 男 线 标注 的 就 是 特殊 字符 ， 稍 后 我 们 将 解 
释 它 们 的 含义 。 

束 像 学 习 任 何 一 门 外 语 一 样 ， 第 一 眼看 上 去 ， 正 则 表达 式 很 不 好 
理解 。 这 也 是 那些 对 它 只 有 粗浅 了 解 或 者 根本 不 了 解 的 人 觉得 正则 表 
达 式 很 神奇 的 原因 。 但 是 ， 就 像 学 日 语 的 人 很 快 就 能 理解 正规 表现 注 
HAEEk! ( 注 2) 一 样 ， 读 者 很 快 也 能 够 彻底 明白 下 面 这 个 正则 表 
达 式 的 含义 : 

s! < emphasis > ([0-9]+(\.[0-9]+){3})</emphasis>!<inet> $1 < /inet 


>I 


这 个 例子 取 目 一 个 Perl 脚本 ， 我 的 编辑 器 用 它 来 修改 手稿 。 手 稿 
的 作者 错误 地 使 用 了 <emphasis> 这 个 tag 来 标注 PP 地址 (类 似 


209.204.146.22 这 样 由 数字 和 点 号 构成 的 字符 串 ) 。 其 中 的 奥妙 就 在 于 
使 用 Pen 的 文本 替换 命令 ， 使 用 : 
| < emphasis > ([0-9]+(\.[0-9]+){3}) </emphasis > | 


FEIP HOLE PN mtag PRA <inet> ， 而 不 改动 其 他 的 <emphasis > 
ie  TRHNR T+, RES TRAX SOAR, Aa wt 
能 按照 目 己 的 需求 ， 在 目 己 的 应 用 程序 或 者 开发 语言 中 应 用 这 些 技 
TJ o 

本 书 的 目的 

你 或 许 不 需要 重复 把 <emphasis > 4A < inet > 的 工作 ， 不 过 很 
可 能 需要 解决 “把 这 些 文字 替换 为 那些 文字 ”的 问题 。 本 书 的 目的 不 是 
提供 具体 问题 的 解决 办 法 ， 而 是 教会 读者 利用 正则 表达 式 来 思考 ， 解 
决 遇 到 的 各 种 问题 。 


ENKER BEER 


The Regular-Expression Frame of Mind 

我 们 将 会 看 到 ， 完 整 的 正则 表达 式 由 小 的 构建 模块 单元 (building 
block unit) 组 成 。 每 个 单独 的 构建 模块 都 很 简单 ， 不 过 因为 它们 能 够 
以 无 穷 多 种 方式 组 合 ， 将 它们 结合 起 来 实现 特殊 目标 必须 依靠 经 验 。 
所 以 ， 本 章 提 供 了 有 关 正 则 表达 式 的 若干 概念 的 总 体 描 述 。 这 一 章 并 
没有 艰深 的 内 容 ， 而 是 为 本 书 其 余 章 节 的 知识 打下 基础 ， 在 深入 探索 
正则 表达 式 之 前 ， 把 相关 事宜 阐释 清楚 。 

某 些 例子 看 起 来 可 能 有 点 无 聊 (因为 它们 确实 无 聊 ) ， 但 它们 代 
表 了 一 类 需要 完成 的 任务 ， 只 是 读者 目前 可 能 还 没有 意识 到 。 即 使 觉 
得 每 个 例子 的 意义 都 不 大 也 不 必 担 心 ， 慢 慢 理解 其 中 的 道理 就 好 。 这 
就 是 本 章 的 目的 。 


对 于 有 部 分 经 验 的 读者 


If You Have Some Regular-Expression Experience 

如 有 果 读 者 已 经 熟悉 正则 表达 式 ， 这 些 综述 便 没有 太 大 价值 ， 但 务 
必 不 要 忽略 它们 。 你 或 许 明白 某 些 元 字符 的 基本 意义 ， 但 某 些 思维 和 
看 得 正则 表达 式 的 方式 可 能 是 你 不 了 解 的 。 

就 像 真 正 懂 演 奏 和 仅仅 会 弹 秦 之 间 差 别 迎 异 一 样 ， 了 解 正 则 表达 
式 和 真正 理解 正则 表达 式 并 不 是 一 回 事 。 某 些 内 容 可 能 会 重复 读者 已 
经 了 解 的 知识 ， 但 方式 可 能 与 之 前 的 不 同 ， 而 且 这 些 方式 正 是 真正 理 
解 正则 表达 式 的 第 一 步 。 


检索 文本 文件 : Egrep 


Searching Text Files:Egrep 
文本 检索 是 正则 表达 陈 最 简单 的 应 用 之 一 一 一 许多 文本 编辑 三 和 
文字 处 理 软件 都 提供 了 正则 表达 式 检索 的 功能 。 最 简单 的 束 定 egrep。 


在 指定 了 正则 表达 式 和 需要 检索 的 文件 之 后 ，egrep 会 尝试 用 正则 表达 
式 来 匹配 每 个 文件 的 每 一 行 ， 并 显示 能 够 匹配 的 行 。 

许多 系统 例如 DOS、MacOS、Windows、Unix 等 等 一 一 都 对 应 
有 人 免费 提供 的 egrep。 在 本 书 的 网 页 http: //regex.info 上 可 以 找到 获得 对 
应 读者 操作 系统 的 egrep 找 贝 的 链接 。 

回 到 第 3 页 的 E-mail 的 例子 ， 真 正 用 来 从 E-mail 文件 中 提取 结果 的 
命令 如 图 1-1 所 示 。egrep 把 第 一 个 命令 行 参 数 视 为 一 个 正则 表达 式 ， 和 独 
下 的 参数 作为 等 搜 检索 的 文件 名 。 注 意 ， 图 1-1 中 的 单 引 号 并 不 是 正则 
表达 式 的 一 部 分 ， 而 是 根据 command shell 需 要 添加 的 ( 注 3) 。 使 用 
egrep 时 ， 我 通常 用 单 引 号 来 包围 正则 表达 式 。 如 条 要 在 文 持 对 正则 表 
达 式 提供 了 完整 支持 的 程序 设计 语言 中 使 用 正则 表达 式 一 一 这 是 下 一 
章 开 头 的 内 容 ， 重 要 的 问题 是 知道 特殊 字符 有 哪些 ， 具 体 文本 是 什 
么 ， 针 对 什么 对 象 什么 表达 式 ， 什 么 工具 软件 ) ， 以 及 按 何 种 顺序 


解释 这 些 字符 。 


shell 中 的 引号 
shell 


ean} 提交 给 egrep 的 正则 表达 式 
一 一 一 一 一 
% egrep 4A(From|Subject) : X mailbox-file 


第 一 个 命令 行 参数 


图 1-1: 通过 命令 行 调用 egrep 

我 们 马上 就 能 明日 ， 这 个 正则 表达 式 的 各 个 部 分 都 是 什么 意思 ， 
但 已 经 知道 某 些 字符 具有 特殊 合 义 的 读者 或 许 能 够 猜 出 大 概 了 “。 在 这 
里 ，'^ 和 | 都 是 正则 表达 式 的 元 字符 ， 它 们 与 其 他 字符 结合 起 来 ， 
实现 我 们 期 望 的 功能 。 

如 果 一 个 正则 表达 式 不 包括 任何 egrep 文 持 的 元 字符 ， 它 就 成 了 一 
个 简单 的 “ 纯 文本 ”检索 。 例 如 ， 在 一 个 文件 中 检索 “cat, ， 会 显示 任何 


包含 catix 3 个 连续 字母 的 行 。 例 如 ， 它 包括 所 有 出 现 了 vacation 的 


EN 
of 
O° 


即便 这 行文 本 中 不 包含 单词 cat, vacation PAL AY cathe IAFF 
合 匹配 条 件 。 如 果 某 行 中 包含 vacation ，egrep 就 会 把 它 显 示 出 来 。 关 
键 就 在 于 ， 此 处 进行 的 正则 表达 式 搜 索 不 是 基于 “单词 ”的 egrep 能 
够 理解 文件 中 的 字 节 和 行 ， 但 它 完 全 不 理解 英语 (或 者 其 他 任何 语 
言 ) 的 单词 、 句 子 、 上 段落 ， 或 者 是 其 他 复杂 概念 。 


Egrep 元 字符 


Egrep Metacharacters 

现在 我 们 来 看 egrep 中 文 持 正则 表达 式 功能 的 元 字符 。 我 会 用 几 个 
例子 来 简要 介绍 它们 ， 把 详细 的 例子 和 描述 留 到 后 面 的 章节 。 

印刷 体例 在 开始 之 前 ， 请 务必 回顾 前 言 第 V 页 上 解释 的 体例 说 
ea 了 一 些 新 的 文字 形式 ， 所 以 某 些 体例 读者 初次 接触 可 能 


行 的 起 始 和 结束 


Start and End of the Line 

或 许 最 容易 理解 的 元 字符 就 是 脱 字符 号 “和 ^， 和 美元 符号 $| T, 
在 检查 一 行文 本 时 ，'^ | 代表 一 行 的 开始 ， $ 代表 结束 。 我 们 曾经 
看 到 ， 正 则 表达 式 ‘cat, 寻找 的 是 一 行文 本 中 任意 位 置 的 cat， 但 是 
lacat) 只 寻找 行 首 的 cat A, 用 来 把 匹配 文本 (这 个 表达 式 的 其 
他 部 分 匹配 的 字符 ) “ 锚 定 ”(anchor) 在 这 一 行 的 开头 。 同 样 ， cat$ ， 
只 寻找 位 于 行 末 的 cat， 例 如 以 scat 结 尾 的 行 。 

读者 最 好 能 养 成 按照 字符 来 理解 正则 表达 式 的 习惯 。 例 如 ， 不 要 
这 样 : 


| Acat | 匹配 以 cat 开 头 的 行 
而 应 该 这 样 理解 : 
| Acat | 匹配 的 是 以 c 作 为 一 行 的 第 一 个 字符 ， 紧 接 一 个 a， 紧 接 一 
个 {的 文本 。 

这 两 种 理解 的 结果 并 无 差异 ， 但 按照 字符 来 解读 更 易于 明日 新 遇 
到 的 正则 表达 式 的 内 部 逻辑 。egrep 会 如 何 解释 A^cat$，、 ‘A$, 和 单个 
A 'A, 呢 ? w 请 翻 到 下 页 查看 答案 。 

脱 字 符号 和 美元 符号 的 特别 之 处 就 在 于 ， 它 们 匹配 的 是 一 个 位 
置 ， 而 不 是 具体 的 文本 。 当 然 ， 有 很 多 方式 可 以 匹配 具体 文本 。 在 正 


则 表达 式 中 ， 除 了 使 用 ‘cat, 之 类 的 普通 字符 ， 还 可 以 使 用 下 面 几 节 介 
绍 的 元 字符 。 


字符 组 


Character Classes 

匹配 若干 字符 之 一 

如 果 我 们 需要 搜索 的 是 单词 "grey”， 同 时 又 不 确定 它 是 否 写 
作 “gray”， 就 可 以 使 用 正则 表达 式 结构 体 (construct) “[...] | 。 它 容许 
使 用 者 列 出 在 某 处 期 望 匹配 的 字符 ， 通 常 被 称 作 字符 组 (character class 

(译注 2) ) 。 le, 匹配 字符 e， la, 匹配 字符 a， 而 正则 表达 式 [ea] ， 
能 匹配 a 或 者 e。 所 以 ， gr[ea]y | 的 意思 是 : 先 找到 g， 跟 着 是 一 个 r， 
然后 是 一 个 a 或 者 se， 最 后 是 一 个 y。 我 很 不 擅长 拼写 ， 所 以 总 是 用 正则 
表达 式 从 一 大 堆 瑞 文 单词 中 找到 正确 的 拼写 。 我 经 常 使 用 的 一 个 正则 
RIATLE 'seplealrlealte, ， 因 为 我 从 来 都 记 不 住 这 个 单词 到 底 是 写 
VE“seperate”, “separate”, “separete”， 还 是 别 的 什么 样子 。 匹 配 的 结 
的 就 是 正确 的 拼 法 ， 而 正则 表达 式 就 是 我 的 领路 人 。 

请 注意 ， 在 字符 组 以 外 ， 普 通 字符 〈 例 如 gr[aely| 中 的 g 和 
Ti ) 都 有 “ 接 下 来 是 (and then) ”的 意思 一 一 “首先 匹配 g,， 接 下 来 
Fee Parents ”。 这 与 字符 组 内 部 的 情况 是 完全 相反 的 。 字 符 组 的 内 容 是 
在 同一 个 位 置 能 够 匹配 的 若干 字符 ， 所 以 它 的 意思 是 “或 ”。 

来 看 另 一 个 例子 ， 我 们 还 必须 考虑 单词 的 第 一 个 字母 为 大 写 的 情 
Oi, HHO '[Sslmith,  。 请 记 住 ， 这 个 表达 式 仍然 能 够 匹配 内 内 在 其 他 
单词 里 头 的 smith (或 者 是 Smith) ， 例 如 blacksmith。 在 综述 阶段 ， 我 
不 打算 为 这 种 情况 费 太 多 笔墨 ， 但 是 这 确实 是 某 些 新 手 遇 到 的 问题 的 
根源 。 等 了 解 了 更 多 的 元 字符 以 后 ， 我 会 介绍 一 些 办 法 来 解决 单词 般 
套 的 问题 。 在 一 个 字符 组 中 可 以 列举 任意 多 个 字符 。 例 如 [123456] 
匹配 1 到 6 中 的 任意 一 个 数字 。 这 个 字符 组 可 以 作为 ”<H[123456]> | 
的 一 部 分 ， 用 来 匹配 <H1>、<H2>、<H3> 等 等 。 在 搜索 HTML 代 
码 的 头 文件 时 这 非常 有 用 。 


在 字符 组 内 部 ， 字 符 组 元 字符 ”( character-class 
metacharacter) “，( 连 字符 ) 表示 一 个 范围 : 『 <H[1-6]> ,与 ”< 
H[123456]> | 是 完全 一 样 的 。 [0-9] 和 [az], 是 常用 的 匹配 数字 和 
小 写字 母 的 简便 方式 。 多 重 范 围 也 是 容许 的 ， 例 如 
[0123456789abcdefABCDEF] | 可 以 写作 「[0-9a-fA-F] (或 者 也 可 以 
写作 [A-Fa-f0-9]) ， 顺 序 无 所 谓 ) 。 这 3 个 正则 表达 式 非 常 适用 于 处 理 
十 六 进 制 数字 。 我 们 还 可 以 随心 所 欲 地 把 字符 范围 与 普通 文本 结合 起 
来 : [[0-9A-Z_! .? ] 能够 匹配 一 个 数字 、 大 写字 和 母 、 下 夯 线 、 人 惊叹 
SRS, 或 者 是 问号 。 

请 注意 ， 只 有 在 字符 组 内 部 ， 连 字符 才 是 元 字符 一 一 否则 它 残 只 
能 匹配 普通 的 连 字 符号 。 其 实 ， 即 使 在 字符 组 内 部 ， 它 也 不 一 定 瓯 是 
元 字符 。 如 果 连 字符 出 现在 字符 组 的 开头 ， 它 表示 的 就 只 是 一 个 普通 
字符 ， 而 不 是 一 个 范围 。 同 样 的 道理 ， 间 号 和 点 号 通常 被 当 作 元 字符 
处 理 ， 但 在 字符 组 中 则 不 是 如 此 (说 明白 一 点 就 是 ，' [0-9A- 
Z! .? ] 里面， 真正 的 特殊 字符 就 只 有 那 两 个 连 字 符 ) 。 


分 析 ‘Acats), I$ 和 Ey 


o 第 8 页 问题 的 答案 
‘cats; 文字 意义 ， 匹 配 的 条 件 是 ， 行 开头 (显然 ， 每 一 行者 有 开头 ) ， 然 后 是 字母 
cat, RERA, 
应 用 意义 ; 只 包含 cat 的 行 一 一 没有 多 余 的 单词 、 空 白字 符 …… 只 有 “cat 。 
文字 意义 ， 匹 配 的 条 件 是 ， 行 开头 ， 然 后 就 是 行 末尾，。 
应 用 意义 ， 空 行 ( 没 有 任何 字符 ， 包 括 空白 字符 )。 
文字 意义 ， 匹配 条 件 是 行 的 开头 。 
应 用 意义 , LEX! 因为 每 一 行 都 有 开头 ， 所 以 每 一 行 都 能 匹配 一 一 空 行 也 
不 例外 ， 


不 妨 把 字符 组 看 作 独 立 的 微型 语言 。 在 字符 组 内 部 和 外 部 ， 关 于 
元 字符 的 规定 〈 哪 

些 是 元 字符 ， 以 及 它们 的 意义 ) 是 不 同 的 。 

我 们 很 快 就 会 看 到 更 多 的 例子 。 

排除 型 字符 组 

ATA. 取代 '[...]， ， 这 个 字符 组 就 会 匹配 任何 未 列 出 的 字符 。 
例如 ，“[^1-6], 匹配 除了 1 到 6 以 外 的 任何 字符 。 这 个 字符 组 中 开头 的 
‘A, 表示 “排除 (negate) ”， 所 以 这 里 列 出 的 不 是 希望 匹配 的 字符 ， 而 
是 不 希望 匹配 的 字符 。 

读者 可 能 注意 到 了 ， 这 里 的 ^ 和 第 8 页 的 表示 行 首 的 脱 字符 是 一 样 
的 。 字 符 确 实 相 同 ， 但 意义 截然 不 同 。 英 语 里 的 “wind”， 根 据 情 境 的 
不 同 ， 可 能 表示 一 阵 强 烈 的 气流 ( 风 ) ， 也 可 能 表示 给 钟表 上 发 条 ; 
元 字符 也 是 如 此 。 我 们 已 经 看 过 用 来 表示 范围 的 连 字 符 的 例子 。 只 有 
在 字符 组 内 部 (而 且 不 是 第 一 个 字符 的 情况 下 ) ， 连 字符 才能 表示 范 
。 在 字符 组 外 部 ，^ 表 示 一 个 行销 点 (line anchor) ， 但 是 在 字符 组 
内 部 〈 而 且 必 须 是 紧 接 在 字符 组 的 第 一 个 方 括号 之 后 ) ， 它 就 是 一 个 
元 字符 。 请 不 要 担心 一 一 这 承 是 最 复 洒 的 情况 ， 接 下 来 的 内 容 比 这 简 
单 。 

来 看 另 一 个 例子 ， 我 们 需要 在 一 堆 英 文 单词 中 搜索 出 一 些 特殊 的 
单词 : 在 这 些 单 词 中 ， 字 母 qd 后 面 的 字母 不 是 u。 用 正则 表达 式 来 表 
示 ， 就 是 qu) 。 用 这 个 正则 表达 式 来 搜索 我 手头 的 数据 ， 确 实 得 到 
了 一 些 结 有 末 ， 但 显然 不 多 ， 其 中 还 有 些 是 我 没 见 过 的 英文 单词 。 

下 面 是 结果 (我 输入 的 命令 用 粗 体 表示 ) : 

% egrep 'q[*u]' word.list 
Iraqi 

Iraqian 

miqra 

qasida 

qintar 


qoph 
zaqqum% 


其 中 有 两 个 单词 值得 注意 : 伊拉克 “Iraq” 和 澳大利亚 航空 公司 的 名 
字 “Qantas”°。 尽管 它们 都 在 word.list 文 件 中 ， 但 都 不 包含 在 egrep 结 果 
中 。 为 什么 呢 ? 可 请 动 动脑 筋 ， 人 然后 翻 到 下 一 页 来 检查 你 的 答案 。 

请 记 住 ， 排 除 型 字符 组 表示 “匹配 一 个 未 列 出 的 字符 (match a 
character that's not listed) ”， 而 不 是 “不 要 匹配 列 出 的 字符 (don't match 
what is listed) ”。 这 两 种 说 法 看 起 来 一 样 ， 但 是 Iraq 的 例子 说 明了 其 中 
的 细微 差异 。 有 一 种 简单 的 理解 排除 型 字符 组 的 办 法 ， 就 是 把 它们 看 
作 普 通 的 字符 组 ， 里 面包 含 的 是 除了 “排除 型 字符 组 中 所 有 字符 ”以 外 
的 学 和 从。 


用 点 号 匹配 任意 字符 


Matching Any Character with Dot 

元 字符 .， (通常 称 为 点 号 dot 或 者 小 点 point) 是 用 来 匹配 任意 字 
符 的 字符 组 的 简便 写法 。 如 果 我 们 需要 在 表达 式 中 使 用 一 个 “匹配 任何 
字符 ”的 占 位 符 (placeholder) ， 用 点 号 就 很 方便 。 例 如 ， 如 果 我 们 需 
要 搜索 03/19/76、03-19-76 或 者 03.19.76， 不 怕 麻 烦 的 话 用 一 个 明确 容 
许 ‘*、‘-*、“.’ 的 字符 组 来 构建 正则 表达 式 ， 例 如 “03[-w]19[-/]76，。 也 
可 以 简单 地 尝试 “03.19.76，。 

读者 第 一 次 接触 这 个 表达 式 时 ， 可 能 还 不 清楚 某 些 情况 。 在 
'O3[-/19[-176, 中 ， 点 号 并 不 是 元 字符 ， 因 为 它们 在 字符 组 内 部 GE 
住 ， 在 字符 组 里 面 和 外 面 ， 元 字符 的 定义 和 意义 是 不 一 样 的 ) 。 这 里 
的 连 字 符 同 样 也 不 是 元 字符 ， 因 为 它们 都 紧 接 在 [或 者 [人 之后。 如 果 连 
字符 不 在 字符 组 的 开头 ， 例 如 “[.-]，， 就 是 用 来 表示 范围 的 ， 在 本 例 
中 就 是 错误 的 用 法 。 


测验 答案 


o 第 11 页 问题 的 答案 

为 什么 'q[^u] LFLM ‘Qantas’ 或 者 “Iraq”? 

Qantas 无 法 匹配 的 原因 是 ， 正 则 表达 式 要 求 小 写 q, m Qantas PH ORK AHH, wR 
我 们 疏 用 gul, WHR EH Qantas， 但 是 其 他 单词 又 不 在 结果 中 了 ， 国 为 它们 不 也 找 
大 写 Q。[Qq] [Yu] 则 能 找到 上 面 所 有 的 单词 ， 

Iraq 的 例子 有 点 迷惑 人 。 正 则 表达 式 要 求 口 之 后 紧 跟 一 个 习 以 外 的 字符 ， 这 或 排除 了 
q 处 在 行 昆 的 情况 ， 通 常 来 说 ， 文 本 行 的 结 旦 都 有 一 个 换行 字符 ， 但 是 我 首先 没有 提 
到 (非常 抱歉 ) egrep 会 在 检查 正则 表达 式 之 前 把 这 此 换行 茬 去掉， 所 以 在 行 昆 的 口 之 
后 ， 没 有 能 够 匹配 以 外 的 字符 。 

请 不 要 因此 灰心 责 气 ( 注 4)， 我 向 你 保证 ， 如 果 egrep 保留 换行 符 (许多 其 他 软件 会 
保留 这 些 符 号 ) ， 或 者 Iraq 后 紧 接 着 空格 或 者 其 他 单词 ， 这 一 行 就 能 匹配 。 理 解 工具 
软件 的 细节 固然 很 重要 ， 但 现在 我 只 布 望 读者 能 通过 这 个 例子 认识 到 ; 一 个 字符 组 ， 
即使 是 排除 型 字符 组 ， 也 需要 匹配 一 个 字符 ， 


在 “03.19.76) 中 ， 点 号 是 元 字符 一 一 它 能 够 匹配 任意 字符 (包括 
我 们 期 望 的 连 字 符 、 句 号 和 和 斜 线 ) 。 不 过 ， 我 们 也 需要 明白 ， 点 号 可 
以 匹配 任何 字符 ， 所 以 这 个 正则 表达 式 也 能 够 匹配 下 面 的 字符 
$. ‘lottery numbers: 19 203319 7639 


所 以 ，'03[-w]19[-./]76 | 更 加 精确 ， 但 是 更 难 读 ， 也 更 难 写 。 
'03.19.76 | 更 容易 理解 ， 但 是 不 够 细致 。 我 们 应 该 选择 哪 一 个 呢 ? 这 
取决 于 你 对 需要 检索 的 文本 的 了 解 ， 以 及 你 需要 达到 的 准确 程度 。 一 
个 重要 但 常见 的 问题 是 ， 写 正则 表达 式 时 ， 我 们 需要 在 对 欲 检索 文本 
的 了 解 程度 与 检索 精确 性 之 间 求 得 平衡 。 例 如 ， 如 果 我 们 知道 ， 针 对 
某 个 检索 文本 ，『03.19.76 | 这 个 正则 表达 式 基 本 不 可 能 匹配 不 期 望 的 
结果 ， 使 用 它 就 是 合理 的 。 要 想 正 确 使 用 正则 表达 式 ， 清 楚 地 了 解 目 
标 文本 是 非常 重要 的 。 


多 选 结构 


Alternation 
匹配 任意 子 表达 式 
[| 是 一 个 非常 简捷 的 元 字符 ， 它 的 意思 是 “或 ”(or) 。 依 靠 它 ， 

我 们 能 够 把 不 同 的 子 表达 式 组 合成 一 个 总 的 表达 式 ， 而 这 个 总 的 表达 
式 又 能 够 匹配 任意 的 子 表 达 式 。 假 如 Bob M Robert) 是 两 个 表达 
st, {E 'Bob|Robert , 就 是 能 够 同时 匹配 其 中 任意 一 个 的 正则 表达 式 。 
在 这 样 的 组 合 中 ， 子 表达 式 称 为 “多 选 分 支 (alternative) ” ° 

回头 来 看 ' grfealy , 的 例子 ， 有 意思 的 是 ， 它 还 可 以 写作 
'greylgray, ， 或 者 是 'gr (ale) yi。 后 者 用 括号 来 划 定 多 选 结构 的 范 
(正常 情况 下 ， 括 号 也 是 元 字符 ) 。 请 注意 ， gr[ale]y, 不 符合 我 们 
的 要 求 一 一 在 这 里 ， 中 只 是 一 个 和 'a | 与 '@ 一 样 的 普通 字符 。 

对 表达 式 gr (ale) y 来 说 ， 插 号 是 必须 的 ， 因 为 如 果 没 有 括 
=, graley| 的 意思 就 成 了 “ ga 或 者 eyj ”， 而 这 不 符合 我 们 的 要 
求 。 多 选 结构 可 以 包括 很 多 字符 ， 但 不 能 超越 括号 的 界限 。 另 一 个 例 
子 是 ' (Firstllst) -[Ss]treet] QE5) 。 事 实 上 ， 因 为 First 和 ‘1st, 
都 以 st 结尾 ， 我 们 可 以 把 这 个 结合 体 缩 上 略 表 示 为 " (Fir|1) 
st:[Ssjtreet，。 这 样 可 能 不 容易 看 得 清楚 ， 但 我 们 知道 ” (Firstllst) ， 与 
| (fir|1) st, 表示 的 是 同一 个 意思 。 

下 面 是 一 些 用 多 选 结构 来 拼写 我 名 字 的 例子 。 这 3 个 表达 式 是 一 样 
的 ， 请 仔细 比较 : 


‘(Jeffrey|Jeffery 
‘Jeff (reylery) 
‘Jeff (reļer)yj 


英国 拼写 法 如 下 : 


' (Geoff | Jeff) (reylery)| 
'(Geo|Je) ff (reylery) 
'(Geo|Je) ff (reer) y! 


最 后 要 注意 的 是 ， 这 3 个 表达 式 其 实 与 下 面 这 个 更 长 (但 是 更 简 
BL) 的 表达 式 是 等 价 的 : [Jeffrey|Geoffery|Jeffery|Geoffrey, 。 它 们 只 
是 “殊途同归 ”而 已 。 

Torfealy, 与 “gr (ale) y, 的 例子 可 能 会 让 人 觉得 多 选 结构 与 字符 
组 没 太 大 的 区 别 ， 但 是 请 留神 不 要 混 清 这 两 个 概念 。 一 个 字符 组 只 能 
匹配 目标 文本 中 的 单个 字符 ， 而 每 个 多 选 结构 自身 都 可 能 是 完整 的 正 
则 表达 式 ， 都 可 以 匹配 任意 长 度 的 文本 。 

字符 组 基本 可 以 算是 一 门 独立 的 微型 语言 (例如 ， 对 于 元 字符 ， 
它们 有 自己 的 规定 ) ， 而 多 选 结构 是 “正则 表达 式 语言 主体 (main 
regular expression language) ”的 一 部 分 。 你 将 会 发 现 ， 这 两 者 都 非常 有 
用 o 

同样 ， 在 一 个 包含 多 选 结构 的 表达 式 中 使 用 脱 字符 和 美元 符 的 时 
候 也 要 小 心 。 比 较 T AFrom|Subject|Date: - , A ' A 

(From|Subject|Date) : “| 就 会 发 现 ， 虽 然 它 们 看 起 来 与 之 前 的 E-mail 
的 例子 很 相似 ， 匹 配 结果 〈 即 它们 的 用 处 ) 却 大 不 相同 。 第 一 个 表达 
式 由 3 个 多 选 分 支 构成 ， 所 以 它 能 匹配 ^From | 或 者 ”Subject | 或 者 
Date: .， ， 实 用 性 不 大 。 我 们 希望 在 每 一 个 多 选 分 支 之 前 都 有 脱 字 
符 ， 之 后 都 有 : .| 。 所 以 应 该 使 用 括号 来 “限制 ”(constrain) 这 些 多 
选 分 文 : 

| ((From|Subject|Date):: , 

现在 3 个 多 选 分 支 都 受 括号 的 限制 ， 所 以 ， 这 个 正则 表达 式 的 意 
思 是 : 匹配 一 行 的 起 始 位 置 ， 然 后 匹配 ^From | > Subject, 或 
‘Date, 中 的 任意 一 个 ， 然 后 匹配 : :， ， 所 以 ， 它 能 够 匹配 的 文本 
是 : 

1) 行 起 始 ， 然 后 是 Fr-0-m， 然 后 是 和: - 

或 者 2) 行 起 始 ， 然 后 是 Sub:j`ect， 然 后 是 : - 

或 者 3) 行 起 始 ， 然 后 是 D'ate， 然 后 是 …: - 

简单 点 说 ， 就 是 匹配 以 ‘From: ?, ‘Subject: :或 者 "Date: … 开 头 的 
文本 行 ， 在 提取 E-mail 文 件 中 的 信息 时 这 很 有 用 。 

Fae Tels: 


% egrep '*(From|Subject|Date): ' mailbox 
From: elvis@tabloid.org (The King) 
Subject: be seein' ya around 

Date: Mon, 23 Oct 2006 11:04:13 

From: The Prez <president@whitehouse.gov> 
Date: Wed, 25 Oct 2006 8:36:24 

Subject: now, about your vote... 


忽略 大 小 写 


Ignoring Differences in Capitalization 

E-mail header 的 例子 很 适合 用 来 说 明 不 区 分 大 小 写 (case- 
insensitive) 的 匹配 的 概念 。E-mail header 中 的 字段 类 型 (field type) iH 
党 是 以 大 写字 母 开 头 的 ， 例 如 “Subject> 和 “From”， 但 是 E-mail 标 准 并 没 
有 对 大 小 写 进行 严格 的 规定 ， 所 以 “DATE” 或 者 “from” 也 是 合法 的 字段 
类 型 。 但 是 ， 之 前 使 用 的 正则 表达 式 无 法 处 理 这 种 情况 。 

一 种 办 法 是 用 '[Ff][Rz[Oo][Mm] 取代 "From, ， 这 样 就 能 匹配 任 
何 形式 的 "from”， 但 缺点 之 一 驶 是 很 不 方便 。 幸 好 ， 我 们 有 一 种 办 法 告 
诉 egrep 在 比较 时 忽略 大 小 写 ， 也 殉 是 进行 不 区 分 大 小 写 的 匹配 ， 这 样 
就 能 忽略 大 小 写字 母 的 差异 。 

该 功能 并 不 是 正则 表达 式 语言 的 一 部 分 ， 却 是 许多 工具 软件 提供 
的 有 用 的 相关 特性 。egrep 的 命令 行 参数 “- 记 表示 进行 忽略 大 小 写 的 匹 
配 。 把 -i 写 在 正则 表达 式 之 前 : 

%egrep-i'\(From|Subject|Date):'mailbox 

结果 除了 包括 之 前 的 内 容 外 ， 还 包含 这 一 行 : 

SUBJECT:MAKE MONEY FAST 

我 使 用 -i 参数 的 频率 很 高 (也 许 与 第 12 页 的 注解 有 关 ) ， 所 以 我 推 
荐 读者 记 住 它 。 在 下 面 的 章节 中 我 们 还 会 见 到 其 他 的 简捷 特性 。 


单词 分 界 符 


Word Boundaries 


使 用 正则 表达 式 时 经 常会 遇 到 的 一 个 问题 ， 期 望 匹配 的 “单词 ? 包 
含 在 男 一 个 单词 之 中 。 在 cat、gray 和 Smith 的 例子 中 ， 我 曾 提 到 过 这 个 
问题 。 不 过 ， 某 些 版 本 的 egrep 对 单词 识别 提供 了 有 限 的 支持 : 也 就 是 
单词 分 界 符 〈 单 词 开头 和 结束 的 位 置 ) 的 匹配 。 

如 果 你 的 egrep 支 持 “ 元 字符 序列 (metasequences) ” '\< , Ail 
A> ，， 就 可 以 使 用 它们 来 匹配 单词 分 界 的 位 置 。 可 以 把 它们 想象 为 单 
词 版 本 的 '^ 和 '$，， 分 别 用 来 匹配 单词 的 开头 和 结束 位 置 。 就 像 作 
为 行销 点 的 脱 字 符 和 美元 符 一 样 ， 它 们 销 定 了 正则 表达 式 的 其 他 部 
分 ,但 在 匹配 过 程 中 并 不 对 应 到 任何 字符 。 表 达 式 "<cat\> | 的 意思 
是 “匹配 单词 的 开头 位 置 ， 然 后 是 c-a-t 这 3 个 字母 ， 然 后 是 单词 的 结束 位 
置 "。 更 直接 点 说 就 是 “匹配 cat 这 个 单词 *”。 如果 读 者 愿意 ， 也 可 以 用 
\<cat, 和 'cat\> | 来 匹配 以 cat 开 头 和 结束 的 单词 。 

WEB, < | 和 > | 本 身 并 不 是 元 字符 一 一 只 有 当 它 们 与 斜 线 
结合 起 来 的 时 候 ， 整 个 序列 才 具 有 特殊 意义 。 这 就 是 我 称 其 为 “元 字符 
序列 * 的 原因 。 重 要 的 是 它们 的 特殊 意义 ， 而 不 是 字符 的 个 数 ， 所 以 我 
说 的 “元 字符 "和 “元 (字符) 序列 "大 多 数 时 候 是 等 价 的 。 

请 记 住 ， 并 不 是 所 有 版 本 的 egrep 都 支持 单词 分 界 符 ， 即 使 是 支持 
的 版 本 也 不 见得 聪明 到 能 < 认得 出 ”英语 单词 。“ 单 词 的 起 始 位 置 > 只 不 过 
是 一 系列 字母 和 数字 符号 (alphanumeric characters) 开始 的 位 置 ， 
而 “结束 位 置 * 就 是 它们 结尾 的 地 方 。 下 一 页 的 图 1-2 说 明了 一 行 简 单 文 
本 中 的 单词 分 界 符 。 

(egrep 认定 的 ) 单词 开头 位 置 用 向 上 的 箭头 标识 ， 单 词 结束 位 置 
用 向 下 的 箭头 标识 。 我 们 看 到 , “单词 的 开始 和 结束 ”准确 地 说 是 “字母 
数字 符号 的 开始 和 结束 ”， 不 过 这 样 说 太 麻 烦 了 。 


ZPH ERR 
. E 


Hye 


pane pa | 


That Aang ~ tootin’ #@1%* yarmint ‘8 


I 


* \< 能 够 区 配 的 位 轩 | \> 能 够 区 配 的 位 置 


图 1-2: “单词 "的 起 始 和 结束 位 置 
小 结 


In a Nutshell 
表 1-1 总 结 了 我 们 已 经 介绍 过 的 元 字符 。 
表 1-1: 至 今 为 止 所 见 的 元 字符 小 结 


单个 任意 字符 


"] 字符 组 列 出 的 任意 字符 
oe] 排除 型 字符 组 未 列 出 的 任意 字符 
行 的 起 始 位 置 
行 的 结束 位 置 
单词 的 起 始 位 置 ( 某 些 版 本 的 egrep 可 能 不 支持 ) 
单词 的 结束 位 置 ( 某 些 版 本 的 egrep 可 能 不 支持 ) 
坚 线 匹配 分 隧 两 边 的 任意 一 个 表达 式 
+) 括号 限制 坚 线 的 作用 范围 ， 其 他 功能 下 文 讨论 
另外 还 有 几 点 需要 注意 : 


e 在 字符 组 内 部 ， 元 字符 的 定义 规则 (及 它们 的 意义 ) 是 不 一 样 
例如 ， 在 字符 组 外 部 ， 点 号 是 元 字符 ， 但 是 在 内 部 则 不 是 如 此 。 


相反 ， 连 字符 只 有 在 字符 组 内 部 〈 这 是 普遍 情况 ) 才 是 元 字符 ， 否 则 


就 不 是 。 脱 字符 在 字符 组 外 部 表示 一 个 意思 ， 在 字符 组 内 部 紧 接 着 [时 
表示 另 一 个 意思 ， 其 他 情况 下 又 表示 别 的 意思 。 

e 不 要 混淆 多 选项 和 字符 组 。 字 符 组 abd 和 多 选项 (alblc) ， 
固然 表示 同一 个 意思 ， 但 是 这 个 例子 中 的 相似 性 并 不 能 推广 开 来 。 无 
论 列 出 的 字符 有 多 少 ， 字 符 组 只 能 匹配 一 个 字符 。 相 反 ， 多 选项 可 以 
匹配 任意 长 度 的 文本 ， 每 个 多 选项 可 能 匹配 的 文本 都 是 独立 的 ， 例 如 
'\< (1, 000, 000|million|thousand-thou) \> ，。 不 过 ， 多 选项 没有 像 
字符 组 那样 的 排除 功能 。 

e 排 除 型 字符 组 是 表示 所 有 未 列 出 字符 的 字符 组 的 简便 方法 。 
E, [Ax] | 的 意思 并 不 是 “只 有 当 这 个 位 置 不 是 x 时 才能 匹配 ”?， 而 是 
说 “匹配 一 个 不 等 于 x 的 字符 *”。 其 中 的 差别 很 细微 ， 但 很 重要 。 例 如 ， 
前 面 的 概念 可 以 匹配 一 个 空 行 ， 而 “[^x]| 则 不 行 。 

(J 

-i 参数 规定 在 匹配 时 不 区 分 大 小 写 (15) Q6) 

e 目 前 介绍 过 的 知识 都 很 有 用 ， 但 “可 选项 (optional) ”和 “计数 
(counting) ”元 素 更 重要 ， 下 文 将 马上 介绍 。 


可 选项 元 素 


Optional Items 

现在 来 看 color 和 colour 的 匹配 。 它 们 的 区 别 在 于 ， 后 面 的 单词 比 前 
面 的 多 一 个 u， 我 们 可 以 用 rcolou9 r, 来 解决 这 个 问题 。 元 字符 '?， 
(也 就 是 问号 ) 代表 可 选项 。 把 它 加 在 一 个 字符 的 后 面 ， 就 表示 此 处 
容许 出 现 这 个 字符 ， 不 过 它 的 出 现 并 非 匹 配 成 功 的 必要 条 件 。 

lu? | 这 个 元 字符 与 我 们 之 前 看 到 的 元 字符 都 不 相同 ， 它 只 作用 
于 之 前 紧邻 的 元 素 。 因 此 ， Tcolou9 r ,的 意思 是 : lco, BAE 
-0 ， 然 后 是 1 ， 然 后 是 o, BAE u? | ， 最 后 是 rij 。 

Tu? ， 是 必然 能 够 匹配 成 功 的 ， 有 时 它 会 匹配 一 个 u， 其 他 时 候 则 
不 匹配 任何 字符 。 关 键 在 于 ， 无 论 u 是 否 出 现 ， 匹 配 都 是 成 功 的 。 但 
这 并 不 等 于 ， 任 何 包 舍 ? 的 正则 表达 式 都 永远 能 匹配 成 功 。 例 如 ， 


‘colo, 和 'u? , 都 能 在 “semicolon 中 匹配 成 功 (前 者 匹配 单词 中 的 
colo， 后 者 什么 字符 都 没有 匹配 ) 。 可 是 最 后 的 r 无 法 匹配 ， 因 此 ， 
最 终 “colou? r) 无 法 匹配 semicolon ° 

来 看 另 一 个 例子 ， 我 们 需要 匹配 表示 7 月 4 日 (July fourth) 的 文 
本 ， 其 中 月 份 可 能 写作 July 或 是 Ju， 而 日 期 可 能 写作 fourth、4th 或 者 
是 4。 显 然 ， 我 们 可 以 使 用 和 (JulyjJul) (fourthl4thl4) ，， 但 也 可 以 
找 些 其 他 的 办 法 来 解决 这 个 问题 。 

首先 ， 我 们 把 ” Guyu) ， 缩 短 为 ” uly? ) ，。 你 明白 这 种 等 
价 变换 吗 ? 删除 | 之后， 就 没 必 要 保留 括号 了 。 当 然 保 留 也 可 以 ,但 
不 保留 插 号 显得 更 整洁 一 些 。 于 是 我 们 得 到 FT Juy? - 

(fourth|4th|4) | ° 

现在 来 看 第 二 部 分 ， 我 们 可 以 把 “4thl4 | 简化 为 4 (th) ? oR 
们 看 到 ， 现 在 '? ， 作用 的 元 素 是 整个 括号 了 。 括 号 内 的 表达 式 可 以 任 
意 复杂 ， 但 是 “从 括号 外 来 看 ”它们 是 个 整体 。 界 定 '? | 的 作用 对 象 

(还 可 以 划 定 我 即将 介绍 的 其 他 类 似 元 字符 的 作用 对 象 ) 是 括号 的 主 
要 用 途 之 一 。 

我 们 的 表达 式 现在 成 了 ‘July? - (fourthl4 (th) ? ) |, ° RECE 
含 了 许多 元 字符 ， 而 且 有 崩 套 的 括号 ， 但 理解 起 来 并 不 困难 。 我 们 论 
了 相当 的 工夫 来 讲解 这 两 个 简单 的 例子 ， 但 同时 也 接触 到 了 一 些 相 天 
的 知识 ， 它 们 相当 有 助 于 一 一 或 许 你 现在 还 意识 不 到 一 一 我 们 理解 正 
则 表达 式 。 同 样 ， 通 过 这 些 讲解 ， 我 们 也 积累 了 依靠 不 同 思路 解决 问 
题 的 经 验 。 在 阅读 本 书 (同时 也 是 在 加 深 理 解 ) 寻找 复杂 问题 的 最 优 
解决 方案 的 过 程 中 ， 你 可 能 会 发 现 灵感 可 能 在 不 断 涌现 。 正 则 表达 式 
不 是 死板 的 教条 ， 它 更 像 是 门 亏 术 。 


其 他 量词 : 重复 出 现 


Other Quantifiers:Repetition 
+, (加 号 ) 和 夫 ) (BS) 的 作用 与 问号 类 似 。 元 字符 +， 
示 “ 之 前 紧邻 的 元 素 出 现 一 次 或 多 次 *， 而 汉 | 表示 “之 前 紧邻 的 元 素 出 


现任 意 多 次 ， 或 者 不 出 现 ”。 换 种 说 法 就 是 ，“.…. 大 |， 表示 “匹配 尽 可 能 
多 的 次 数 ， 如 果实 在 无 法 匹配 ， 也 不 要 紧 "。 ...+ | 的 意思 与 之 类 似 ， 
也 是 匹配 尽 可 能 多 的 次 数 ， 但 如 果 连 一 次 匹配 都 无 法 完成 ， 就 报告 失 
败 。 问 号 、 加 号 和 星 号 这 3 个 元 字符 ， 统 称 为 量词 (quantifiers) ， 
为 它们 限定 了 所 作用 元 素 的 匹配 次 数 。 

与 ...? | 一样， 正则 表达 式 中 的 .大 |， 也 是 永远 不 会 匹配 失败 
的 ， 区 别 只 在 于 它们 的 匹配 结果 。 而 .+ 在 无 法 进行 任何 一 次 匹配 
时 ， 会 报告 匹配 失败 。 

举例 来 说 ， .? ， 能够 匹配 一 个 可 能 出 现 的 空格 ， 但 是 . 尖 ， 能 够 
匹配 任意 多 个 空格 。 我 们 可 以 用 这 些 量词 来 简化 第 9 页 <H[1-6]> 的 例 
子 。 按 照 HTML 规 范 Q7) ， 在 tag 结 尾 的 > 字符 之 前 ， 可 以 出 现任 意 
长 度 的 空格 ， 例 如 <H3:> 或 者 <H4…>。 把 :类 ,加 入 正则 表达 式 中 
的 可 能 出 现 (但 不 是 必须 ) 空格 的 位 置 ， 就 得 到 HI[1-6]. 兴 |, 。 它 仍然 
能 够 匹配 <H1> ， 因 为 空格 并 不 是 必须 出 现 的 ， 但 其 他 形式 的 tag 也 能 
匹配 。 

接 下 来 看 类 似 <HR.SIZE=14> 这 样 的 HTML tag， 它 表示 一 条 高 度 
为 14 像 素 的 穿越 屏幕 的 水 平 线 。 与 <H3> 的 例子 一 样 ， 在 最 后 的 尖 括 
号 之 前 可 以 出 现任 意 多 个 空格 。 此 外 ， 在 等 号 两 边 也 容许 出 现任 意 多 
个 空格 。 最 后 ， 在 HR 和 SIZE 之 间 必 须 有 至 少 一 个 空格 。 为 了 处 理 更 
多 的 空格 ， 我 们 可 以 在 “后 添加 .类 ，， 不 过 最 好 还 是 改写 为 .+ o 
加 号 确保 至 少 有 一 个 空格 出 现 ， 所 以 它 与 类 |, 是 完全 等 价 的 ， 只 不 
过 更 简洁 。 所 以 我 们 得 到 <HR.+SIZE. 兴 =' 火 14. 炎 > 。 

尽管 这 个 表达 式 不 受 空格 数目 的 限制 ， 但 它 仍 然 受 tag 中 直线 尺寸 
大 小 的 约束 。 我 们 要 找 的 不 仅仅 是 高 度 为 14 的 tag， 而 是 所 有 这 些 tag。 
所 以 ， 我 们 必须 用 能 匹配 普通 数值 (general number) 的 表达 式 来 奉 换 
14, 。 在 这 里 , “数值 ”(number) 是 由 一 位 或 多 位 数字 (digits) 构成 
的 。 [0-9] 可 以 匹配 一 个 数字 ， 因 为 “至 少 出 现 一 次 ”"， 所 以 我 们 使 用 
加 号 量词 ， 结 果 就 是 用 “[0-9]+ | 替换 14| 。 (一 个 字符 组 是 一 个 “元 
素 ”(unit) ， 所 以 它 可 以 直接 加 加 号 、 星 号 等 ， 而 不 需要 用 括号 。) 


OPERATE T | <HR-+SIZE:-*=*[0-9]+-* >, ， 尽 管 我 用 了 
粗 体 标识 元 字符 ， 用 空格 来 分 隔 各 个 元 素 ， 而 且 使 用 了 “看 得 见 的 空格 
符 ”…， 这 个 表达 式 仍 然 不 容易 看 懂 (幸好 ，egrep 提 供 了 -i 的 参数 号 
15， 这 样 我 就 不 需要 用 “ [Hh][Rr] | 来 表示 HR T) ° BM, < 
HR+SIZE * = * [0-9]+* > | 更 令 人 迷惑 。 这 个 表达 式 之 所 以 看 起 来 有 
些 诡异 ， 是 因为 星 号 和 加 号 作用 的 对 象 大 都 是 空格 ， 而 人 眼 习 惯 于 把 
空格 和 普通 字符 区 分 开 来 。 在 阅读 正则 表达 式 时 ， 我 们 必须 改变 这 种 
习惯 ， 因 为 空格 符 也 是 普通 字符 之 一 ， 它 与 j 或 者 4 这 样 的 字符 没有 任 
何 差别 (在 后 面 的 章节 中 ， 我 们 会 看 到 ， 某 些 工具 软件 支持 忽略 空格 
的 特殊 模式 ) 。 

我 们 继续 这 个 例子 ， 如 果 尺 二 这 个 属性 也 是 可 选 的 ， 也 就 是 说 < 
HR> 就 代表 默认 高 度 的 直线 (同样 ， 在 > 之 前 也 可 能 出 现 空格 ) 。 你 
能 修改 我 们 的 正则 表达 式 ， 让 它 匹配 这 两 种 类 型 的 tag 吗 ? 解决 问题 的 
关键 在 于 明白 表示 尺寸 的 文本 是 可 选 出 现 的 (这 是 个 暗示 ) e WIAA 
下 一 页 查看 答案 。 

请 仔细 观察 最 后 (SEP) 的 表达 式 ， 体 会 问号 、 星 号 和 加 号 之 
间 的 差异 ， 以 及 它们 在 实际 应 用 中 的 真正 作用 。 下 一 页 的 表 1-2 总 结 
它们 的 意义 。 

请 注意 ， 每 个 量词 都 规定 了 匹配 成 功 至 少 需要 的 次 数 下 限 ， 以 及 
党 试 匹 配 的 次 数 上 限 。 对 某 些 量词 来 说 ， 下 限 是 0， 对 某 些 量词 来 说 ， 
上 限 是 无 穷 大 。 


把 一 个 子 表达 式 变 为 可 选项 


v 19 页 问题 的 答案 

在 本 例 中 ,“ 可 选 出 现 ”(optional) 的 意思 是 可 以 但 并 不 必须 匹配 一 次 ,这 需要 使 用 '? )。 
因为 可 选项 多 于 一 个 字符 ， 所 以 我 们 必须 使 用 括号 ; (…)? )。 把 它 插 入 表达 式 中 ， 就 
得 到 ‘SHR (++S1ZE**=+# [0-9] +) 3°*>) 

请 注意 , 结尾 的 1 在 1…) 231 以 外 ,这 样 就 能 应 付 f<HR'>j 之 类 的 情况 如果 我 们 把 它 
包含 在 括号 内 ， 则 只 有 在 出 现 “SIZE=…” 这 上 段 文 本 的 情况 下 才 容许 在 > 之 前 出 现 空格 ， 
同样 请 注意 size 之 前 的 "+ 包含 在 括号 内 。 如 果 把 它 拿 到 括号 之 外 ,HR 之 后 就 必须 紧 
跟 至 少 一 个 空格 ， 即 使 SIZE 没有 出 现 也 是 如 此 ， 这 样 “<HR>” 就 无 法 匹配 了 ， 


表 1-2: “表示 重复 的 元 字符 ”含义 小 结 


无 |i | 可以 不 出 现 ， 也 可 以 只 出 现 一 次 (HARTI) 


可 以 出 现 无 数 次 ， 也 可 以 不 出 现 (任意 次 数 均 可 ) 
1 LR | 可 以 出 现 无 数 痰 ， 但 至 少 要 出 现 一 次 (至 少 一 次 ) 

规定 重 现 次 数 的 范围 : 区 间 

某 些 版 本 的 egrep 能 够 使 用 元 字符 序列 来 自 定 义 重 现 次 数 的 区 间 : 
|...{min，max} | 。 这 称 为 "区间 量 词 (interval quantifier) ”。 例 如 ， 
"2.43, 12}, 能 够 容许 的 重 现 次 数 在 3 到 12 之 间 。 有 人 可 能 会 用 [azA- 
Z]{1，5}) 来 匹配 美国 的 股票 代码 (1 到 5 个 字母 ) 。 问 号 对 应 的 区 间 
量词 是 {0，1}。 

文 持 区 间 表 示 法 的 egrep 的 版 本 并 不 多 ， 但 有 许多 为 外 的 工具 文 持 
它 。 在 第 3 章 我 们 会 仔细 考察 目前 经 常 使 用 的 元 字符 ， 那 时 候 会 涉及 区 
间 的 文 持 问题 。 


括号 及 反 辐 引用 


Parentheses and Backreferences 


到 目前 为 止 ， 我 们 已 经 见 过 括号 的 两 种 用 途 : 限制 多 选项 的 范 
Hl; 将 看 干 字 符 组 合 为 一 个 单元 ， 受 问号 或 星 号 之 类 量词 的 作用 。 现 
在 我 要 介绍 括号 的 另 一 种 用 途 ， 虽 然 它 在 egrep 中 并 不 常见 (不 过 流行 
的 GNU 版 本 确实 支持 这 一 功能 ) ， 但 在 其 他 工具 软件 中 很 常见 。 

在 许多 流派 (flavor) 的 正则 表达 式 中 ， 括 号 能 够 “ 记 住 ” 它 们 包含 
的 子 表达 式 匹配 的 文本 。 在 解决 本 章 开始 提 到 的 单词 重复 问题 时 就 会 
用 到 这 个 功能 。 如 果 我 们 确切 知道 重复 单词 的 第 一 个 单词 (比方 说 这 
个 单词 就 是 “the*) ， 就 能 够 明确 无 误 地 找到 它 ， 例 如 "thethe, > IX 
或 许 还 是 会 匹配 到 the*theory 的 情况 ， 但 如 果 我 们 的 egrep 支 持 在 第 15 
页 提 到 的 单词 分 界 符 \<the-the\> , ， 这 个 问题 就 很 容易 解决 。 我 们 可 
以 添加 “+ | 把 这 个 表达 式 变 得 更 灵活 。 

然而 ， 穷 举 所 有 可 能 出 现 的 重复 单词 显然 是 不 可 能 完成 的 任务 。 
如 果 我 们 先 匹配 任意 一 个 单词 ， 接 下 来 检查 “后 面 的 单词 是 否 与 它 一 
样 "， 就 好 办 多 了 了。 如果 你 的 egrep 支 持 “ 反 同 引 用 (backreference) ” 
就 可 以 这 么 做 。 反 向 引用 是 正则 表达 式 的 特性 之 一 ， 它 容许 我 们 匹配 
与 表达 式 先前 部 分 匹配 的 同样 的 文本 。 

我 们 先 把 \<the'+the\> | 中 的 第 一 个 “the | 替换 为 能 够 匹配 任意 
单词 的 正则 表达 式 「[A-Za-z]+, ; 然后 在 两 端 加 上 括号 (原因 见 下 
BO G 最 后 把 后 一 个 "the* 替 换 为 特殊 的 元 字符 序列 ML, ， 就 得 到 了 
\< ([A-Za-z]+) -+\1\>, ° 

在 支持 反 向 引用 的 工具 软件 中 ， 括 号 能 够 “记忆 ”其 中 的 子 表达 式 
匹配 的 文本 ， 不 论 这 些 文本 是 什么 ， 元 字符 序列 \1 都 能 记 住 它们 。 

当然 ， 在 一 个 表达 式 中 我 们 可 以 使 用 多 个 括号 。 再 用 ML 、 
\2, > '\3, 等 来 表示 第 一 、 第 二 、 第 三 组 括号 匹配 的 文本 。 括 号 是 按 
照 开 括号 ” (从 左 至 右 的 出 现 顺序 进行 的 ， 所 以 ([a-z]) 《〈[0-9]) 
\\2, 中 的 \L 代表 [a-z] 匹配 的 内 容 ， 而 "2 代表 [0-9] | 匹配 的 内 


容 。 


在 ‘the-the’ 的 例子 中 ，' [A-Za-z]+ | 匹配 第 一 个 ‘the’。 因 为 这 个 子 表 
达 式 在 括号 中 ， 所 以 \1 代表 的 文本 就 是 ‘the*。 如 果 “+ | 能够 匹配 ， 


后 面 的 \1, 要 匹配 的 文本 就 是 'the'。 如 果 '\1, 也 能 成 功 匹 配 ， 最 后 的 
A> |, 对 应 单词 的 结尾 (如 果 文本 是 “the-theft ， 这 一 条 就 不 满足 ) 。 如 
果 整 个 表达 式 能 匹配 成 功 ， 我 们 就 得 到 一 个 重复 单词 。 有 的 重复 单词 
并 不 是 错误 ， 例 如 “that that' (译注 3) ， 这 并 不 是 正则 表达 式 的 错误 ， 
真正 的 判断 还 得 靠 人 。 我 决定 使 用 上 面 这 个 例子 的 时 候 ， 已 经 用 这 个 
表达 式 检查 过 本 书 之 前 的 内 容 了 (我 使 用 的 是 支持 \<..\> | 和 反 向 
引用 的 egrep) 。 我 还 使 用 了 第 15 页 提 到 的 忽略 大 小 写 的 参数 -i 来 拓宽 它 
的 适用 范围 ( 注 8) ， 所 以 ‘The-the? 这 样 的 单词 重复 也 能 提取 出 来 。 

我 使 用 的 命令 如 下 : 

%egrep-i^\ < (La-z]+)+\1\> files... 

结果 令 我 惊奇 ， 居 然 找 到 了 14 组 重复 单词 。 我 把 它们 全 都 改正 
了 ， 而 且 把 这 个 表达 式 添加 到 我 用 来 检查 本 书 拼 写 错误 的 工具 中 ， 保 
证 从 此 以 后 全 书 中 不 会 出 现 这 样 的 错误 。 

尽管 这 个 表达 式 很 有 用 ， 我 们 仍然 需要 重视 它 的 局 限 。 因 为 egrep 
把 每 行文 字 都 当 作 一 个 独立 部 分 来 看 待 ， 所 以 如 果 单 词 重 复 的 第 一 个 
单词 在 某 行 末尾 ， 第 二 个 单词 在 下 一 行 的 开头 ， 这 个 表达 式 承 无 法 找 
到 。 所 以 ， 我 们 需要 更 加 灵活 的 工具 ， 下 一 章 我 们 会 看 到 这 方面 的 例 
子 o 


神奇 的 转 义 


The Great Escape 

有 个 重要 的 问题 我 尚未 提 及 ， 即 : 如 果 需 要 匹配 的 某 个 字符 本 身 
MELFI, EM ZAMS AA Mee? 例如， 如果 我 想 要 检索 互联 
网 的 主机 名 egaattcom ， 使 用 “egaattcom | 可 能 得 到 
megawatt'"computing 的 结果 。 还 记得 吗 ? |. 本 身 就 是 元 字符 ， 它 可 
以 匹配 任何 字符 ， 包 括 空格 。 

真正 匹配 文本 中 点 号 的 元 序列 应 该 是 反 斜 线 (backslash) 加 上 点 
号 的 组 合 : | ega\.att\.com | oN 称 为 “ 转 义 的 点 号 ”或 者 “ 转 义 的 句 
号 ”"， 这 样 的 办 法 适用 于 所 有 的 元 字符 ， 不 过 在 字符 组 内 部 无 效 ( 注 
gh 8 


这 样 使 用 的 反 斜 线 称 为 “ 转 义 符 (escape) ”一 一 它 作 用 的 元 字符 会 
失去 特殊 合 义 ， 成 了 普通 字符 。 如 果 你 愿意 ， 也 可 以 把 转 义 符 和 它 之 
后 的 元 字符 看 作 特 殊 的 元 字符 序列 ， 这 个 元 字符 序列 匹配 的 是 元 字符 
对 应 的 普通 字符 。 这 两 种 看 法 是 等 价 的 。 

我 们 还 可 以 用 “\、([a-zA-Z]+\) ) 来 匹配 一 个 括号 内 的 单词 ， 例 
QW (very) ”。 在 开 闭 括号 之 前 的 反 斜 线 消 除了 开 闭 括号 的 特殊 意义 ， 
于 是 他 们 能 够 匹配 文本 中 的 开 闭 括号 。 

如 有 果 反 和 斜 线 后 紧 跟 的 不 是 元 字符 ， 反 和 斜 线 的 意义 束 依 程序 的 版 本 
而 定 。 例 如 ， 我 们 已 经 知道 ， 某 些 版 本 的 程序 把 \< o \>) > AL 
当 作 元 字符 序列 对 待 。 在 后 面 的 章节 中 我 们 会 看 到 更 多 的 例子 。 


基础 知识 拓展 


Expanding the Foundation 
我 希望 ， 前 面 的 例子 和 解释 已 经 帮助 读者 牢固 地 打下 了 正则 表达 
式 的 基础 ， 也 请 读者 明白 ， 这 些 例子 都 很 浅显 ， 我 们 需要 掌握 的 还 有 


很 多 。 


语言 的 差异 


Linguistic Diversification 

我 已 经 介绍 过 大 多 数 版 本 的 egrep 文 持 的 正则 表达 式 的 特性 ， 这 样 
的 特性 还 有 很 多 ， 其 中 一 些 并 不 是 所 有 的 版 本 都 文 持 ， 这 个 问题 留 到 
后 面 的 章 世 讲解 。 

任何 语言 中 都 存在 不 同 的 方言 和 口音 ， 很 不 六， 正则 表达 式 也 一 
样 。 情 况 似 乎 是 ， 每 一 种 支持 正则 表达 式 的 语言 都 提供 了 目 己 的 “ 改 
进 *”。 正 则 表达 式 不 断 发 展 ， 但 多 年 的 变化 也 造 束 了 数目 众多 的 正则 表 
达 式 “流派 ”(flavor) 。 我 们 会 在 下 面 的 章节 中 见 到 各 种 例子 。 


正则 表达 式 的 目标 


The Goal of a Regular Expression 

从 最 宏观 的 角度 看 ， 一 个 正则 表达 式 要 么 能 够 匹配 给 定 文 本 (对 
egrep 来 说 ， 就 是 一 行文 本 ) 中 的 某 些 字符 ， 要 么 不 能 匹配 。 在 编写 正 
则 表达 式 的 时 候 ， 我 们 必须 进行 权衡 : 匹配 符合 要 求 的 文本 ， 同 时 忽 
略 不 符合 和 要求 的 文本 。 

尽管 egrep 不 关心 匹配 文本 在 行 中 的 位 置 ， 但 对 正则 表达 式 的 其 他 
应 用 来 说 ， 这 个 问题 却 很 重要 。 如 条 文本 是 这 样 : 

...Zip is 44272.If you write,send $4.95 to cover postage and... 

我 们 只 希望 找 出 包含 “[0-9]+, 的 那些 行 ， 就 不 需要 关心 真正 匹配 
的 数字 。 相 反 ， 如 果 我 们 需要 操作 这 些 数字 (例如 保存 到 文件 、 添 


加 、 替 换 之 类 一 一 我 们 会 在 下 一 章 看 到 这 样 的 处 理 ) ， 就 需要 关心 确 
切 匹 配 的 那些 数 子 。 


更 多 的 例子 


A Few More Examples 

在 任何 语言 中 ， 经 验 都 是 非常 重要 的 ， 所 以 我 会 给 出 更 多 用 正则 
表达 式 匹 配 第 用 文本 结构 的 例子 。 

编写 正则 表达 式 时 ， 按 照 预期 获得 成 功 的 匹配 要 化 去 一 半 的 工 
夫 ， 男 一 半 的 工夫 用 来 考虑 如 何 忽略 那些 不 符合 要 求 的 文本 。 在 实践 
中 ， 这 两 方面 都 非常 重要 ， 但 是 目前 我 们 只 关注 “获得 成 功 匹 配 ” 的 方 
面 。 即 使 我 没有 对 这 些 例子 进行 最 全 面 彻 的 的 解释 ， 它 们 仍然 能 够 提 
供 有 用 的 启示 。 

变量 名 

许多 程序 设计 语言 都 有 标识 符 (identifier， 例 如 变量 名 ) 的 概念 ， 
标识 符 只 包含 字母 、 数 字 以 及 下 画 线 ， 但 不 能 以 数字 开头 。 我 们 可 以 
用 [a-zA-Z_lla-zA-Z_0-9]* | 来 匹配 标识 符 。 第 一 个 字符 组 匹配 可 能 
出 现 的 第 一 个 字符 ， 第 二 个 (包括 对 应 的 "类 ，) 匹配 余下 的 字符 。 如 
果 标 识 符 的 长 度 有 限制 ， 例 如 最 长 只 能 是 32 个 字符 ， 又 能 使 用 第 20 页 
介绍 的 区 间 量 词 {tmin，max} | ， 我 们 可 以 用 '{0，31}, 来 替代 最 后 的 
Fug 


al 
引号 内 的 字符 串 
匹配 引号 内 的 字符 串 最 简单 的 办 法 是 使 用 这 个 表达 式 : |" a" 
J 
两 端的 引号 用 来 匹配 字符 串 开 尖 和 结尾 的 引号 。 在 这 两 个 引号 之 
间 的 文本 可 以 包括 双 引 号 之 外 的 任何 字符 。 所 以 我 们 用 “[^"]| 来 匹配 
除 双 引 号 之 外 的 任何 字符 ， 用 “类 | 来 表示 两 个 引号 之 间 可 以 存在 任意 
数目 的 非 双 引 号 字符 。 
关于 引号 字符 串 ， 更 有 用 (也 更 复杂 ) 的 定义 是 ， 两 端的 双 引 号 
之 间 可 以 出 现 由 反 斜 线 转 义 的 双 引 号 ， 例 如 " nailthe:2\ " x4\ " -plank 


" o FE JS EA eo AE SEAT YT, IS Z KB BGK 
例子 。 

美元 金额 (可 能 包含 小 数 ) 

[\$[0-9}+ (\.[0-9][0-9]) ? ,是 一 种 匹配 美元 金额 的 办 法 。 

从 整体 上 看 ， 这 个 表达 式 很 简单 ， 分 为 三 部 分 :6，、“...+ A 
' (...) ? ， ， 可 以 大 致 理解 为 ， 一 个 美元 符号 ， 然 后 是 一 组 字符 ， 最 
后 可 能 还 有 男 一 组 字符 。 这 里 的 “字符 ” 指 的 是 数字 (一 组 数字 构成 一 
个 数值 ) ,“ 男 一 组 字符 ”是 由 一 个 小 数 点 和 两 位 数字 构成 的 。 

从 几 个 方面 来 看 ， 这 个 表达 式 还 很 们 陋 。 比 如 ， 它 只 能 接受 
$1000， 而 无 法 接受 $1，000。 它 确实 能 接受 可 能 出 现 的 小 数 部 分 ， 但 
对 于 egrep 来 说 意义 不 大 。 因 为 egrep 从 不 关心 匹配 文字 的 内 容 ， 而 只 关 
心 是 否 存在 匹配 。 处 理 可 能 出 现 的 小 数 部 分 对 整个 表达 式 能 否 匹配 并 
没有 影响 。 

但 是 ， 如 果 我 们 需要 找到 只 包含 价格 而 不 含 其 他 字符 的 行 ， 倒 是 
可 以 在 这 个 表达 式 两 端 加 上 和 ^...$ 。 这 样 一 来 ， 可 选 的 小 数 部 分 就 变 
得 很 重要 了 ， 因 为 在 金额 数值 和 换行 符 之 间 是 否 存在 小 数 部 分 ， 决 定 
了 整个 表达 式 的 匹配 结果 是 否 存 在 差异 。 

另外 ， 这 个 正则 表达 式 还 无 法 匹配 ‘$.49*。 你 可 能 认为 把 加 号 换 成 

号 能 够 解决 问题 ， 不 过 这 条 路 走 不 通 。 在 这 我 移 卖 个 关 了 于， 答案 留 
地 第 5 章 (194) 揭晓 。 

HTTP/HTML URL 
Web URL 的 形式 可 能 有 很 多 种 ， 所 以 构造 一 个 能 够 匹配 所 有 形式 
的 URL 的 正则 表达 式 颇 有 难度 。 不 过 ， 稍 微 降低 一 点 要 求 的话 ， 我 们 
能 够 用 一 个 相当 简单 的 正则 表达 式 来 匹配 大 多 数 帝 见 的 URL。 进 行 这 
种 检索 的 原因 之 一 是 ， 我 只 能 大 概 记 得 在 收 到 的 某 封 邮件 中 有 一 个 
URL 地 址 ， 不 过 一 见 到 它 我 束 能 认 出 来 。 

常见 的 HITP/HTML URL 是 下 面 这 样 的 : 

http://hostname/path. html 

当然 ，.htm 的 结尾 也 很 常见 。 


Je AI 


hostname 〈 主 机 名 ， 例 如 www.yahoo.com) 的 规则 比较 复杂 ， 但 是 
我 们 知道 ， 跟 在 ‘http: /之 后 的 就 有 可 能 是 主机 名， 所 以 这 个 正则 表达 
式 就 很 简单 ，“[-a-z0-9 .]+ | 。path 部 分 的 变化 更 多 ， 所 以 我 们 需要 使 
用 '[-a-z0-9_: @&? =+, .! /~*%$]%, 。 请 注意 ， 连 字符 必须 放 在 
字符 组 的 开头 ， 保 证 它 是 一 个 普通 字符 ， 而 不 是 用 来 表示 范围 (S 
9) 

综合 起 来 ， 我 们 第 一 次 符 试 的 正则 表达 式 承 是 : 

%egrep-i '\<http://[-a-z0-9_.:]+/[-a-z0-9_:@&?=+,.!/~ * %$] * \.html? 
\>' files 

因为 我 们 降低 了 对 匹配 的 要 求 ， 所 以 ‘http: //..../foo.html’ 也 能 
配 ， 虽 然 它 显然 不 是 一 个 合法 的 URL。 我 们 需要 关心 这 一 点 吗 ? 这 取 
决 于 具体 的 情况 。 如 果 我 只 是 需要 扫描 自己 的 E-mail， 得 到 一 些 错误 结 
果 并 不 算是 问题 。 而 且 ， 我 没准 会 用 更 位 单 的 表达 式 : 

%egrep-i \< http://[4] *\.html?\>' files... 

在 深入 了 解 如 何 调 校正 则 表达 式 之 后 ， 读 者 会 明白 ， 要 想 在 复杂 
性 和 完整 性 之 间 求 得 平衡 ， 一 个 重要 的 因素 是 了 解 待 搜索 的 文本 。 下 
一 章 ， 我 们 会 更 详细 地 考察 这 个 例子 。 

HTML tag 

对 egrep 这 样 的 工具 来 说 ， 简 单 地 匹配 包含 HTML tag 的 行 并 不 常 
见 ， 也 没什么 用 。 但 是 ， 探 索 如 何 准确 匹配 一 个 HTML tag 却 是 相当 有 
启发 的 ， 在 下 一 章 深入 接触 更 高 级 的 工具 时 ， 这 一 点 尤其 明显 。 

简单 的 例子 包括 *<TITLE> :和 :<HR> :'， 我 们 可 能 会 想到 < .类 
> |。 这 个 简单 的 表达 式 往往 是 最 直接 的 想法 ， 但 它 显 然 是 不 对 的 。 
<. x> | 的 意思 是 ，“ 先 匹配 一 个 ‘<，， 然 后 是 任意 多 个 任意 字符 ， 然 
后 是 ‘>””。 所 以 ， 它 无 疑 能 够 匹配 不 止 一 个 tag 的 内 容 ， 例 如 “this 
<I>short</13 example’ 中 标记 的 内 容 。 

也 许 结果 有 点 出 乎 你 的 意料 ， 但 是 我 们 目前 还 只 在 第 1 章 ， 对 正 
则 表达 式 的 理解 也 不 够 深入 。 我 之 所 以 举 这 个 例子 ， 是 想 说 明正 则 表 
达 式 并 不 复杂 ， 但 是 如 果 你 不 真正 弄 懂 它们 ， 可 能 会 被 搞 得 坚 头 转 


向 。 在 下 面 的 几 章 中 ， 我 们 会 学 习 理解 和 解决 这 个 问题 需要 的 所 有 细 
节 。 


表示 时 刻 的 文字 ， 例 如 “9: 17 am” 或 者 “12: 30 pm” 

匹配 表示 时 刻 的 文字 可 能 有 不 同 的 严格 程度 。 

Tr0-9]?[0-9]:[0-9][0-9]-(amlpm) , 

能 够 匹配 9: 17.am 或 者 12: 30.pm， 但 也 能 匹配 无 意义 的 时 刻 ， 如 
99: 99-pm ° 

首先 看 小 时 数 ， 我 们 知道 ， 如 果 小 时 数 是 一 个 两 位 数 ， 第 一 位 只 
能 是 1。 但 是 1? [0-9] , 仍然 能 够 匹配 19 (也 能 够 匹配 0) ， 所 以 更 好 
的 办 法 应 该 是 把 小 时 部 分 分 为 两 种 情况 来 处 理 ，「1[012] , 匹配 两 位 
数 ， '[1-9], 匹配 一 位 数 ， 结 果 就 是 ” (1[012]I[1-9]) ，。 

分 钟 数 就 简单 些 。 第 一 位 数字 应 该 是 _[0-5] | ， 此 时 第 二 位 数字 应 
该 是 [0-9] ，。 综 合 起 来 就 是 (1[012]I[1-9] ) : [0-5][0-9]. 
(amlpm) | ° 

举一反三 ， 你 能 够 处 理 24 小 时 制 的 时 间 吗 ?多 动 动脑 筋 ， 想 想 该 
如 何 处 理 以 0 开头 的 情况 ， 比 如 09: 59 呢 ? 机 答案 请 见 下 页 。 


正则 表达 式 术 语汇 总 


Regular Expression Nomenclature 

正则 (regex) 

你 或 许 已 经 猜 到 了 , “正则 表达 式 ” (regular expression) 这 个 全 名 
SEK AR i Ol, Sn RE i AT, ERMA RAS IE 
则 ” (regex) 的 说 法 。 这 个 单词 念 起 来 很 流畅 (有 点 像 联邦 快递 的 
FedEx， 与 regular 一 样 ，g 发 重 首 ， 而 不 同 于 Regina) ， 而 且说 “如 果 你 
写 一 个 正则 ”, “巧妙 的 正则 ” (budding regexers) ， 其 至 是 “正则 
化 ”(regexification) (#10) ” (译注 4) 。 

匹配 (matching) 

一 个 正则 表达 式 “ 匹 配 ” 一 个 字符 串 ， 其 实 是 指 这 个 正则 表达 式 能 
在 字符 串 中 找到 匹配 文本 。 严 格 地 说 ， 正 则 表达 式 a 不 能 匹配 cat, 


但 是 能 匹配 cat FAY ac 几乎 没 人 会 混 消 这 两 个 概念 ， 但 澄清 一 下 还 是 
有 必要 的 。 

元 字符 (metacharacter) 

一 个 字符 是 否 元 字符 (或 者 是 “元 字符 序列 ” (metasequence) ， 这 
两 个 概念 是 相等 的 ) ， 取 决 于 应 用 的 具体 情况 。 例 如 ， 只 有 在 字符 组 
外 部 并 且 是 在 未 转 义 的 情况 下 ， 4 才 是 一 个 元 字符 。“ 转 
义 ” (escaped) 的 意思 是 ， 通 常情 况 下 在 这 个 字符 之 前 有 一 个 反 斜 线 。 
\ 类 | 是 对 大 |， 的 转 义 ,而 \X UAE (第 一 个 反 斜 线 用 来 转 义 第 
二 个 反 和 斜 线 ) ， 虽 然 在 两 个 例子 中 ， 星 号 之 前 都 有 一 个 反 斜 线 。 

正则 表达 式 的 流派 (flavor) 不 同 ， 关 于 字符 转 义 的 规定 也 不 相 
同 。 第 3 章 对 此 进行 了 详细 讨论 。 

流派 (flavor) 

我 已 经 说 过 ， 不 同 的 工具 使 用 不 同 的 正则 表达 式 完 成 不 同 的 任 
务 ， 每 样 工具 文 持 的 元 字符 和 其 他 特性 各 有 不 同 。 我 们 再 举 单词 分 界 
符 的 例子 。 某 些 版 本 的 egrep 文 持 我 们 曾 见 过 的 \< ..\> 表 示 法 。 而 画 
一 些 版 本 不 支持 单独 的 起 始 和 结束 边界 ， 只 提供 了 统一 的 _\b， 元 字符 

(这 个 元 字符 我 们 还 没 见 过 ， 下 一 章 才 会 用 到 ) 。 还 有 些 工具 同时 支 
持 这 两 种 表示 法 ， 男 有 许多 工具 哪 种 也 不 支持 。 

我 用 “流派 、(flavor) ”这 个 词 来 描述 所 有 这 些 细微 的 实现 规定 。 这 
束 好 像 不 同 的 人 说 不 同 的 方言 一 样 。 从 表面 上 看 ,， “流派 * 指 的 是 关于 
元 字符 的 规定 ， 但 它 的 内 容 远 远 不 止 这 些 。 

即使 两 个 程序 都 支持 \<..\> ，， 它 们 可 能 对 这 两 个 元 字符 的 意 
义 有 不 同 的 理解 ， 对 单词 的 理解 也 不 相同 。 在 使 用 具体 的 工具 软件 
时 ， 这 个 问题 尤其 重要 。 


改进 匹配 时 间 的 表达 式 ， 处 理 24 小 时 制 时 间 
o 26 页 问题 的 答案 
办 法 有 许多 种 ,不 过 思路 和 之 前 差不多 ， 现 在 我 们 把 问题 分 为 3 部 分 ; 其 一 是 上 午 (小 
时 数 从 00 $109, 开头 的 0 可 选 )， 其 二 是 白天 (小 时 数 从 10 到 19)， 其 三 是 夜晚 (小 
时 数 从 20 到 23)， 这 样 葵 案 就 很 明显 了 :0?1[0-9] |1[0-9) 12[0-3])。 
实际 上 ， 我 们 可 以 合并 头 两 个 多 选 分 支 ， 得 到 [01]?10-9] 12[0-3] ,。 你 可 能 需要 动 
虚 脑 筋 才 能 明白 这 个 表达 式 与 上 面 是 完全 等 价 的 ， 下 面 的 图 可 能 有 所 帮助 ， 它 还 提供 
了 另 一 种 思路 。 阴 影 部 分 表示 单个 多 选 分 支 能 竞 匹 配 的 数字 ， 

左 图 右 图 
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请 不 要 混淆 “流派 (flavor) ”和 “工具 (tool) ”这 两 个 概念 。 两 个 人 
可 以 说 同样 的 方言 ， 两 个 完全 不 同 的 程序 也 可 能 属于 同样 的 流派 。 同 
样 ， 两 个 名 字 相 同 的 程序 (解决 的 任务 也 相同 ) 所 属 的 流派 可 能 有 细 
微 《有 时 可 能 并 非 细 微 ) 的 差别 。 有 许多 程序 都 叫 egrep， 它 们 所 属 的 
流派 也 五 花 八 门 。 

由 Pen 语言 的 正则 表达 式 开 创 的 流派 ， 在 20 世 纪 90 年 代 中 期 因为 其 
强大 的 表达 能 力 广 为 人 们 所 知 ， 其 他 语言 紧 随 其 后 ， 提 供 了 汲取 其 中 
灵感 的 正则 表达 式 (其 中 许多 为 了 标明 自己 的 思想 来 源 ， 直 接 给 自己 
贴 上 “兼容 Perl (Perl-Compatible) ”的 标签 ) 。 它 们 包括 PHP、Python ` 
Java 的 大 量 正 则 包 ， 微 软 的 .NET Framework、Tcl， 以 及 C 的 各 种 类 库 。 
不 过 ， 所 有 这 些 语言 在 重要 的 方面 各 有 不 同 。 而 且 Perl 的 正则 表达 式 


也 在 不 断 演 化 和 发 展 (现在 ， 有 时 候 是 受 了 其 他 语言 的 正则 表达 式 的 
刺激 ) 。 像 往常 一 样 ， 总 的 局 面 变 得 越 来 越 复杂 ， 让 人 困惑 。 

子 表达 式 (subexpression) 

“ 子 表达 式 ” 指 的 是 整个 正则 表达 式 中 的 一 部 分 ， 通 常 是 括号 内 的 
表达 式 ， 或 者 是 由 | 分隔 的 多 选 分 支 。 例 如 ， 在 ^ 

(Subject|Date) : -, 中 ， ‘Subject|Date, 通常 被 视 为 一 个 子 表达 式 。 其 
中 的 "Subject, 和 "Date, 也 算得 上 子 表达 式 。 而 且 ， 严 格 说 起 来 ， 
'S, > lu, > ‘by > U 这些 字符 ， 都 算 子 表达 式 。 

1-6 这 样 的 字符 序列 并 不 能 算 “H[1-6]: 炙 ,的 子 表达 式 ， 因 为 ‘1- 
6’ 所 属 的 字符 组 是 不 可 分 割 的 “单元 (unit) ”。 但 是 ，'H, > [1- 
6] | 、 类， 都 是 'H[1-6]. 关 的 子 表达 式 。 

与 多 选 分 支 不 同 的 是 ， 量 词 ( 星 号 、 加 号 和 问号 ) 作用 的 对 象 是 
它们 之 前 紧邻 的 子 表 达 式 。 所 以 “mis+tpell, 中 的 + 作用 的 是 s，， 而 不 
是 mis | 或 者 'is,。 当 然 ， 如 果 量词 之 前 紧邻 的 是 一 个 括号 包围 的 子 
表达 式 ， 整 个 子 表达 式 (无 论 多 复杂 ) 都 被 视 为 一 个 单元 。 

字符 (character) 

ERE? FETT ELE — TA FPR ER LY e — BSE ATE 
的 单词 取决 于 计算 机 如 何 解释 。 单 个 字 节 的 值 不 会 变化 ， 但 这 个 值 所 
代表 的 字符 却 是 由 解释 所 用 的 编码 来 决定 的 。 例 如 ， 值 为 64 和 53 的 字 
入， 在 ASCI 编 码 中 分 别 代 表 了 字符 “@” 和 “5”， 但 在 EBCDIC 编 码 中 ， 
则 是 完全 不 同 的 字符 (一 个 是 空格 ， 一 个 是 控制 字符 ) 。 

另 一 方面 ， 在 流行 的 日 文字 符 编 码 中 ， 这 两 个 字 节 代表 一 个 字符 
正 。 如 果 换 一 种 日 文字 符 编 码 ， 这 个 字 就 需要 两 个 完全 不 同 的 字 节 。 
那 两 个 字 节 ， 在 通行 的 Latin-1 编 码 中 ， 表 示 “ Ah ”， 而 在 Unicode 编码 
中 又 表示 韩文 的 “ 针 ”( 注 11) 。 问 题 在 于 ， 字 节 如 何 解 释 只 是 视角 

( 称 为 "编码 *encoding) 的 问题 ， 我 们 要 做 的 只 是 确保 自己 的 视角 和 正 
在 使 用 的 工具 的 视角 相同 。 

一 直 以 来 ， 文 本 处 理 软件 一 般 都 把 数据 视 为 一 些 ASCH 编码 的 字 

方 ， 而 不 考 丰 使 用 者 期 望 采用 的 字符 编码 。 不 过 ， 近 来 已 经 有 越 来 越 


多 的 系统 在 内 部 使 用 某 些 格式 的 Unicode 编 码 来 处 理 数 据 〈 第 3 章 介绍 
J Unicode, 105) 。 如 果 这 些 系 统 中 的 正则 表达 式 子 系统 的 实现 方式 
正确 ， 使 用 者 通常 就 不 需要 在 编码 的 问题 上 费 太 多 工夫 。 这 个 “如 
果 ” 相 当 复 杂 ， 所 以 第 3 章 深入 讲解 了 这 个 问题 。 


改进 现状 


Improving on the Status Quo 

总 的 来 说 ， 正 则 表达 式 并 不 难 。 但 是 ， 如 宁 你 与 使 用 过 文 持 正 则 
表达 式 的 程序 或 语言 的 人 交流 过 束 会 发 现 ， 某 些 人 确实 “会 用 ”正则 表 
达 式 ， 但 如 果 需 要 解决 复杂 的 问题 ， 或 是 换 用 他 们 不 熟悉 的 工具 ， 就 
会 出 问题 。 

传统 的 正则 表达 式 文 档 大 都 只 包含 一 两 个 元 字符 的 简略 介绍 ， 然 
后 就 给 出 关于 其 他 元 字符 的 表格 。 给 出 的 例子 通常 也 是 无 意义 的 a 夫 

( (ab) *|b*) |，， 文 本 则 是 'a'xxx'ce'XXXXXX' ci-xxx:d?。 这 些 文档 大 

都 忽略 了 细微 但 重要 的 知识 点 ， 总 是 声称 目 己 与 其 他 出 名 的 工具 属于 
同一 流派 ， 而 饼 记 提 及 必然 存在 的 差异 。 它 们 缺乏 实用 价值 。 

当然 ， 我 的 意思 并 不 是 ， 本 章 就 能 够 填补 这 道 鸿 沟 ， 让 读者 掌握 
所 有 正则 表达 式 ， 或 是 掌握 egrep 的 正则 表达 式 。 相 反 ， 这 一 章 只 是 为 
本 书 的 其 他 内 容 铺 反 基础 。 我 硕 望 本 书 能 够 为 读者 填补 这 道 鸿沟 ， 虽 
然 这 期 望 有 点 自负 。 很 多 读者 很 满意 本 书 的 第 一 版 ， 我 本 人 也 为 拓展 
这 一 版 的 深度 和 广度 付出 了 艰苦 的 努力 。 

或 许 是 因为 正则 表达 式 的 文档 一 直 都 非常 欠缺 ， 我 感到 目 己 必须 
做 出 额外 的 努力 ， 才 能 把 知识 梳理 清楚 。 因 为 我 希望 保证 读者 能 够 充 
分 运用 正则 表达 式 的 潜力 ， 我 希望 你 们 能 够 真正 精通 正则 表达 式 。 

这 既是 件 好 事 也 是 件 坏事 。 

好 处 在 于 ， 你 将 学 会 如 何以 正则 表达 式 的 方式 来 思考 问题 。 你 将 
学 习 到 ， 在 面 对 属 于 不 同 流派 的 新 工具 时 ， 需 要 注意 哪些 差异 和 特 
性 。 你 还 将 会 学 习 到 ， 如 果 某 个 流派 的 功能 弱小 、 特 性 简陋， 该 如 何 
表达 上 自己 的 意图 。 你 将 会 明白 ， 一 个 正则 表达 式 的 效率 优 于 其 他 表达 
式 的 原因 所 在 ， 而 且 你 将 能 够 在 复杂 性 、 殖 率 和 匹配 准确 性 间 进 行 取 
eI o 


面 对 特 别 复杂 的 任务 ， 你 将 会 知道 如 何 通过 程序 容许 的 方式 来 构 
建 和 使 用 正则 表达 式 。 总 的 来 说 ， 你 能 够 得 心 应 手 地 使 用 正则 表达 式 
的 所 有 潜能 。 

问题 在 于 ， 这 种 方法 的 学 习 曲 线 非常 陡峭 ， 而 且 还 有 几 大 难点 : 

e 正 则 表达 式 的 使 用 许多 程序 使 用 的 正则 表达 式 比 egrep 要 复杂 。 
在 我 们 探讨 如 何 构造 真正 有 用 的 正则 表达 式 的 细 下 之 前 ， 需 要 知道 正 
则 表达 式 的 使 用 方法 。 下 一 章 关 注 这 一 问题 。 

。 正 则 表达 式 的 特性 (feature) 面 对 问题 ， 选 择 合适 的 工具 是 成 功 
的 一 半 ， 所 以 我 会 在 全 书 中 使 用 多 种 工具 。 不 同 的 程序 ， 甚 至 是 同 
个 程序 的 不 同 版 本 ， 支 持 的 特性 和 元 字符 都 不 一 样 。 在 了 解 使 用 细节 
之 前 ， 我 们 必须 搞 清 楚 这 个 问题 。 这 是 第 3 章 的 主题 

e 正 则 表达 式 的 工作 原理 在 我 们 接触 有 用 (但 通常 也 很 复杂 ) 的 例 
子 之 前 ， 我 们 必须 * 揭 开 盖 子 ” 来 了 解 正则 表达 式 的 工作 原理 。 我 们 将 
会 看 到 ， 对 某 些 元 字符 进行 党 试 匹 配 的 次 序 是 一 个 重要 的 问题 。 实 际 
E, ENKAR] (regular expression engine) 不 同 ， 工 作 原 理 也 不 
同 ， 所 以 对 于 同样 的 正则 表达 式 ， 不 同 的 程序 会 得 到 不 同 的 结果 。 我 
们 将 在 第 4、5、6 章 中 探讨 这 个 复杂 的 问题 。 

正则 表达 式 的 工作 原理 是 最 重要 同时 也 是 最 难以 掌握 的 知识 。 人 研 
究 这 个 问题 有 时 的 确 很 枯燥 ， 更 糟糕 的 是 ， 读 者 在 接触 真正 有 趣 的 内 
容 一 一 解决 实际 问题 一 一 之 前 ， 不 得 不 耐 着 性 子 看 完 它 们 。 然 而 ， 弄 
懂 正 则 表达 式 的 工作 原理 ， 才 是 真正 理解 的 关键 。 

你 或 许 会 想 ， 如 果 只 希望 学 会 开车 ， 是 不 需要 了 解 汽 车 运行 原理 
的 。 但 是 ， 学 习 开 车 与 学 习 正 则 表达 式 之 间 并 没有 多 少 相似 性 。 我 的 
目的 是 教会 读者 如 何 使 用 正则 表达 式 一 一 也 就 是 编写 正则 表达 式 
来 解决 问题 。 更 合适 的 比喻 是 ， 学 习 正 则 表达 式 瓯 如 同学 习 如 何 造 
车 ， 而 不 是 如 何 开车 。 在 制造 汽车 以 前 ， 我 们 必须 了 解 汽 车 的 工作 原 
EH 

第 2 章 提 供 了 更 多 的 关于 开车 的 经 验 。 第 3 章 简要 回顾 了 开车 的 历 
中， 详细 考察 了 正则 表达 式 流 派 的 主要 内 容 。 第 4 章 介 绍 了 正则 表达 式 
流派 的 重要 的 引擎 。 第 5 章 展示 了 一 些 更 复杂 的 例子 ， 第 6 章 告 诉 你 如 
何 调 校 某 种 具体 的 引 警 ， 之 后 的 各 章 则 是 检查 具体 的 产品 和 模型 。 在 


第 4、5、6 章 中 ， 我 们 伦 了 大 量 的 篇 幅 来 探讨 幕后 的 原理 ， 所 以 请 务必 
做 好 准备 。 


M yok 


An 一 口 


Summary 
表 1-3 总 结 了 我 们 在 本 章 中 见 过 的 egrep 的 元 字符 。 
表 1-3: egrep 的 元 字符 总 结 


匹配 单个 字符 的 元 字符 
ERR 
匹配 单个 任意 字符 
[+] 匹配 单个 列 出 的 字符 
[^] 匹配 单个 未 列 出 的 字符 


Echar 是 元 字符 ,或 转 义 序列 无 特殊 含义 时 ,匹配 
M ER char i 


提供 计数 功能 的 元 字符 
容许 匹配 一 次 ， 但 非 必须 
可 以 匹配 任意 多 次 ， 也 可 能 不 匹配 
至 少 需要 匹配 一 次 ， 至 多 可 能 任意 多 浆 
EVES mink, £4 Si max ik 
匹配 位 置 的 元 字符 
RHA E 
$ KAM eee 
\< 区 配 单 启 的 开始 位 置 


\> 单词 分 界 符 ” 匹配 单词 的 结束 位 置 


T pr 限定 多 选 结构 的 范围 ， 标 注 量 词 作用 的 元 素 ， 为 反 
向 引用 “捕获 ” 文本 
ys Eh 第 二 组 插 号 内 的 字 表 达 式 匹配 的 


四 并 非 所 有 版 本 的 egrep 都 支持 


此 外 ， 请 务必 理解 以 下 几 点 : 

e 各 个 egrep 程序 是 有 差别 的 。 它 们 文 持 的 元 字符 ， 以 及 这 些 元 字 
符 的 确切 含义 ， 通 常 都 有 差别 一 一 请 参考 相应 的 文档 (23) 。 

e 使 用 括号 的 3 个 理由 是 : 限制 多 选 结 构 (613) 、 分 组 (14) 
和 捕获 文本 (21) 。 


e 字 符 组 的 特殊 性 在 于 ， 关 于 元 字符 的 规定 是 完全 独立 于 正则 表达 
式 语言 “主体 ”的 。 

e 多 选 结构 和 字符 组 是 截然 不 同 的 ， 它 们 的 功能 完全 不 同 ， 只 是 在 
有 限 的 情况 下 ， 它 们 的 表现 相同 (13) 。 

e 排 除 型 字符 组 同样 是 一 种 “肯定 断言 ” (positive assertion) 即 
使 它 的 名 字 里 包 含 了 “排除 ”两 个 字 ， 它 仍然 需要 匹配 一 个 字符 。 只 是 
因为 列 出 的 字符 都 会 被 排除 ， 所 以 最 终 匹 配 的 字符 肯定 不 在 列 出 的 字 
符 之 内 (12) 。 

e@-i 的 参数 很 有 用 ， 它 能 进行 忽略 大 小 写 的 匹配 (15) ° 

e 转 义 有 3 种 情况 : 

1. A 加 上 元 字符 ， 表 示 匹 配 元 字符 所 使 用 的 普通 字符 (例如 
Axi 匹配 普通 的 星 号 ) 。 

2.'\, 加 上 非 元 字符 ， 组 成 一 种 由 具体 实现 方式 规定 其 意义 的 元 字 
符 序列 (例如 ，"\< ,表示 “单词 的 起 始 边界 ”) 。 

3.'\ 加 上 任意 其 他 字符 ， 默 认 情 况 就 是 匹配 此 字符 (也 就 是 说 ， 
反 斜 线 被 忽略 了 ) 。 请 记 住 ， 对 大 多 数 版 本 的 egrep 来 说 ， 字 符 组 内 部 
的 反 斜 线 没 有 任何 特殊 意义 ， 所 以 此 时 它 并 不 是 一 个 转 义 字符 。 

e 由 星 号 和 问号 限定 的 对 象 在 “匹配 成 功 ? 时 可 能 并 没有 匹配 任何 字 
符 。 即 使 什么 字符 都 不 能 匹配 到 ， 它 们 仍然 会 报告 “匹配 成 功 ”。 
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Personal Glimpses 

本 章 开 始 的 单词 重复 的 例子 可 能 有 些 让 人 迷惑 ， 不 过 正则 表达 式 
的 功能 的 确 很 强大 ， 我 们 只 需要 egrep 这 样 简单 的 工具 ， 用 第 1 章 的 知 
识 ， 束 能 够 基本 解决 这 个 问题 。 我 倒是 布 望 在 本 章 多 讲 些 复杂 点 的 例 
子 ， 但 是 因为 我 希望 用 第 1 草 为 后 面 的 章节 打下 坚实 的 基础 ， 我 担 
心 ， 如 果 这 一 草 满 是 提醒 、 注 意 、 规 则 之 类 ， 那 些 从 未 接触 过 正则 表 
达 式 的 人 在 读 完 之 后 ， 或 许 会 感到 困惑 一 一 “需要 这 么 厅 烦 吗 ? ” 

我 哥哥 曾 教 朋友 玩 一 种 叫 schaffkopf 的 纸牌 游戏 ， 这 个 游戏 在 我 们 
家 流传 了 好 几 代 了 。 其 中 真正 的 乐趣 并 不 会 在 第 一 次 接触 时 体会 到 ， 
而 且 学 习 的 曲线 也 很 陡峭 。 我 的 嫂子 丽 兹 平时 是 最 有 耐心 的 人 ,但 玩 
了 半 个 小 时 就 对 这 些 复杂 的 规则 感到 灰心 形 气 了 ， 她 说 “我 们 不 能 不 能 
玩 兰 米 (译注 5) 吗 ? ”不 过 最 后 的 结果 是 ， 包 括 丽 效 在 内 的 所 有 人 都 
玩 到 很 晚 。 只 要 大 过 了 开始 的 难 天 ， 接 下 来 的 刺激 就 会 引诱 他 们 继续 
向 前 。 我 哥哥 知道 肯定 会 这 样 ， 但 丽 效 和 其 他 玩 伴 需 要 花费 时 间 和 工 
夫 来 继续 深入 才能 体会 到 这 个 游戏 的 乐趣 。 

习惯 正则 表达 式 可 能 需要 花 一 些 时 间 ， 所 以 在 你 没有 真切 体会 到 
用 正则 表达 式 解决 问题 的 成 束 感 时 ， 可 能 会 觉得 这 样 有 点 迁 凋 。 如 宁 
是 ， 我 希望 你 能 够 抵抗 住 “ 玩 兰 米 游戏 ”的 诱惑 。 一 旦 你 掌握 了 正则 表 
达 式 的 强大 功能 ， 就 会 感到 人 花 在 学 习 上 的 那些 时 间 真 是 物 超 所 值 。 


第 2 章 入 门 示例 拓展 


Extended Introductory Examples 
还 记得 第 1 章 中 单词 重复 的 例子 吗 ?” 我 说 过 ， 完 整 解决 这 个 问题 只 
需要 用 Perl 之 类 的 语言 写 儿 行 代码 。 它 看 起 来 像 是 这 样 : 


>/ “n”? 
while (<>) 


next if !s/\b([a-z]+) ((?:\s|<[^>]+>)+) (\1\b) /\e[7m$1\e [m$2\e{7m$3\e [m/ig; 
s/^(?:[^\e]*\n)+//ma; 十 去 除 未 标记 的 行 

s/^/$ARGV: /mg; # 在 行 首 添加 文件 名 

print; 


咽 哼 ， 这 就 是 完整 的 程序 了 。 
即便 你 对 Per 有 所 了 解 ， 我 也 不 敢 奢 望 你 能 完全 明白 这 段 程序 (至 
少 目前 如 此 ) 。 我 希望 的 是 ， 这 个 例子 让 你 看 到 egrep 之 外 的 世界 ， 让 
你 有 兴趣 认识 正则 表达 式 的 真正 能 力 。 
该 程序 的 主要 功能 依靠 3 个 正则 表达 式 : 
。 '\b([a-z]+) ((2?:\sl<[%>] +>) +) (\L\b)1 
e '4(2:[4\e] *\n) + 


° [A 


尽管 这 是 一 个 Perl 的 例子 ， 但 这 3 个 正则 表达 式 可 以 原封 不 动 地 
(或 者 只 需要 做 很 少 的 改动 ) 应 用 到 许多 其 他 语言 中 ， 比 如 PHP、 
Python、Java、VB.NET、Tcl 等 等 。 
现在 来 看 这 3 个 表达 式 ， 最 后 的 ^ 很 好 理解 ， 但 是 其 他 的 两 个 表 
达 式 包含 我 们 在 egrep 中 未 见 过 的 玩意 儿 。 这 是 因为 Perl 与 egrep 不 属于 
同一 个 流派 ， 所 以 某 些 表示 法 有 所 不 同 ， 而 且 Perl (还 包括 许多 其 他 现 
代 的 工具 程序 ) 提供 的 元 字符 远 远 多 于 egrep。 我 们 会 在 这 一 章 中 见 到 
许多 例子 。 


关于 这 些 例子 


About the Examples 

本 章 包 括 了 一 些 和 常见 的 问题 一 一 验证 用 户 的 输入 数据 ， 人 处理 E-mail 
header (电子 邮件 头 ) ， 把 纯 文 本 数据 转换 为 超 文本 格式 (HTML) ， 
通过 这 些 问题 ， 你 将 真正 见识 到 正则 表达 式 的 世界 。 在 构造 正则 表达 
式 时 ， 我 会 做 些 尽 可 能 详细 的 讲解 ， 提 供 一 些 启示 。 在 这 个 过 程 中 ， 
我 们 会 见 到 一 些 egrep 没有 提供 的 结构 和 特性 ， 也 会 专门 花 很 多 篇 幅 来 
探讨 其 他 重要 的 概念 。 

在 本 章 的 末尾 及 下 面 的 各 章 中 ， 我 会 使 用 各 种 语言 ， 包 括 PHP > 
Java 和 VB.NET， 但 是 本 章 中 我 们 主要 使 用 的 还 是 Perl。 这 些 语言 ， 当 
然 也 包括 其 他 许多 语言 ， 对 正则 表达 式 的 操纵 能 力 都 远 远 强 于 egrep， 
所 以 使 用 其 中 任何 一 种 作为 示范 都 会 让 我 们 见 到 许多 有 趣 的 内 容 。 我 
选择 以 Perl 开 始 ， 主 要 是 因为 ， 在 所 有 流行 的 语言 中 Perl 对 正则 表达 式 
的 文 持 很 完整 ， 且 易于 使 用 。 而 且 ，Per 还 提供 了 许多 其 他 紧 痰 的 数据 
处 理 结构 (data-handling constructs) ， 能 够 减少 所 需 的 “人 简单 重复 劳 
By” (dirty work) ， 以 便 我 们 把 精力 集中 到 正则 表达 式 上 。 

第 2 页 出 现 的 文件 检查 的 程序 很 好 地 说 明了 这 种 能 力 ， 我 需要 用 
这 个 程序 来 确定 每 个 文件 中 ‘ResetSize’ 出 现 的 次 数 与 ‘SetSize’ 出 现 的 次 
数 是 否 一 样 多 。 我 选择 的 语言 是 Perl， 命 令 如 下 : 

%perl-One'print “$ARGV\n” if s/ResetSize//ig ! =s/SetSize//ig' x (我 
并 不 奢望 你 现在 就 能 明日 这 条 命令 一 一 我 只 希望 你 能 注意 到 这 条 命令 
有 多 简洁 。) 

我 喜欢 Perl ， 但 现在 讨论 的 主题 不 是 Perl。 请 记 住 ， 本 章 的 重点 是 
正则 表达 式 。 这 有 点 儿 像 计算 机 系 的 教授 在 第 一 学 年 的 课 间 上 说 的 “你 
们 将 会 在 这 里 学 习 计 算 机 科学 知识 ， 但 我 们 选择 用 Pascal 语 言 作 为 学 习 
ERS (EI S 

因为 本 间 并 不 假设 读者 已 经 懂得 Pel， 所 以 我 会 做 些 必 要 的 讲解 ， 
让 你 明白 这 些 例子 (第 7 章 讲解 Penl 的 本 质 的 细节 ， 它 假设 读者 懂得 一 
些 基 本 的 知识 ) 。 即 使 你 曾经 用 过 好 几 门 语言 ，Perl 也 可 能 让 你 觉得 奇 
怪 ， 因 为 它 的 语法 极 精炼 ， 语 意 又 极 丰 富 。 为 了 让 这 些 例子 更 清楚 ， 


我 不 会 使 用 Perl 提供 的 这 些 特性 ， 而 是 用 一 种 更 普通 的 近 卑 伪 码 的 风 
格 来 展示 这 些 程序 。 虽 然 算 不 上 “ 痪 脚 "， 但 这 些 例 子 也 不 符合 Perl 的 编 
程 风 格 。 不 过 ， 我 们 将 通过 它们 认识 到 正则 表达 式 的 重要 作用 。 


Perl 简 单 入 门 


A Short Introduction to Perl 

Perl 是 一 门 功能 强大 的 脚本 语言 ， 诞 生 于 20 世 纪 80 年 代 来 期 ， 其 思 
想 主 要 来 自 其 他 的 编程 语言 和 工具 。Perl 关 于 文本 处 理 和 正则 表达 式 的 
许多 概念 来 自 两 种 专业 化 的 语言 awk 和 sed， 它 们 都 非常 不 同 于 “ 传 
统 ” 的 语言 ， 例 如 C 和 Pascal 。 

Perl 可 以 应 用 于 许多 平台 ， 包 括 DOS/Windows ` MacOS ` OS/2 ` 
VMS 和 Unix。 它 的 文本 处 理 能 力 极 其 强大 ， 是 天 于 Web 的 处 理 中 最 常 
使 用 的 工具 。 如 果 要 获得 对 应 你 的 机 赂 版 本 的 Perl ， 请 参考 
www.perl.com ° 

本 书 是 为 Pen 的 5.8 版 而 写 的 ， 不 过 本 章 的 例子 可 以 在 5.005 以 后 的 
版 本 上 使 用 。 

现在 来 看 一 个 简单 的 例子 : 


Scelsius = 30; 
fahrenheit = ($celsius * 9 / 5) + 32; # 计算 华氏 温度 
print “$celsius C is $fahrenheit F.\n”; # 返回 摄氏 和 华氏 温度 
AN 日 
执行 这 段 程序 ， 结 果 是 : 
30 C is 86 F. 


$fahrenheit 和 $celsius 之 类 的 普通 变量 一 般 以 $ 开 头 ， 可 以 保存 一 个 
数值 或 者 任意 长 度 的 文本 〈 在 本 例 中 只 保存 了 数值 ) 。 人 从艺 到 行 尾 都 
是 注释 。 

如 果 你 曾经 使 用 过 C、C# 或 者 Java、VB.NET， 你 可 能 无 法 理解 在 
Perl 中 变量 居然 能 够 出 现在 双 引 号 包围 的 字符 串 中 。 在 字符 串 “$celsius 
C is $fahrenheit Fn 中， 每 个 变量 都 会 被 它 的 实际 值 所 取代 。 在 本 例 
中 ， 结 果 就 是 打印 出 来 的 字符 串 《ma 代表 换行 ) 。 

Perl 也 提供 了 跟 其 他 流行 的 语言 类 似 的 控制 结构 : 


$celsius = 20; 
while (Scelsius <= 45) 
{ 


S$fahrenheit = (S$celsius * 9 / 5) + 32; # 计算 华氏 温度 
print “Scelsius C is $fahrenheit F.\n”; 
Scelsius = celsius + 5; 


} 


在 条 件 为 真 〈 即 $celsius <=45) 时 ，while 循 环 控制 的 部 分 会 重复 
执行 。 把 这 段 代 码 写 入 到 一 个 程序 中 ， 例 如 temps， 我 们 可 以 直接 从 命 
{TE 

下 面 是 运行 的 结 


% perl -w temps 
20°C is .68 下: 
is 77 F. 
is 86 F. 
is-95- F: 
is 104 F. 
jie fm Os ie 


-w 人 参数 并 不 是 运行 所 必须 的 ， 与 正则 表达 式 也 没有 直接 的 联系 。 
只 是 告诉 Perl， 仔 细 检 查 我 们 的 程序 ， 在 Perl 认为 可 疑 的 地 方 发 出 
警报 (例如 没有 初始 化 的 变量 之 类 一 一 在 Perl 中 ， 变 量 不 需要 事先 声明 
就 能 使 用 ) 。 在 这 里 加 上 这 个 参数 ， 只 是 因为 它 是 一 种 良好 的 习惯 。 

好 了 ， 这 歼 是 Pen 的 从 单 入 门 。 下 面 我 们 来 看 在 Perl 中 如 何 使 用 正 
则 表达 式 。 


Ww 
Ui 
2.0 OO@Q 


Sk yet OF 


使 用 正则 表达 式 匹 配 文本 


Matching Text with Regular Expressions 
Perla] AUZA EE A EIRAN, sical LA He eee BO E P Y 
文本 能 否 由 某 个 正则 表达 式 匹 配 。 下 面 的 代码 检查 $reply 中 所 含 的 字符 
串 ， 报 告 这 个 字符 串 是 否 全 部 由 数字 构成 : 
if ($reply =~ m/*[0-9]+$/) { 
print “only digits\n”; 
} else { 
print “not only digits\n”; 


} 

第 一 行 的 代码 也 许 有 些 奇怪 : 正则 表达 式 是 ^[0-9]+$ ，， 两 边 的 
m/.../ 告 诉 Perl 该 对 这 个 正则 表达 式 进行 什么 操作 。m 代 表演 试 进行 “ 正 
则 表达 式 匹 配 (regular expression match) ”， 斜 线 用 来 标记 界限 GE 
2) 。 之 前 的 = 一 用 来 连接 m/.../ 和 和 欲 搜 索 的 字符 串 ， 即 本 例 中 的 
$reply ° 

请 不 要 混 消 = 一 、= 和 ==“。 运 算 符 == 用 来 测试 两 个 数字 是 人 否 相等 

(我 们 将 会 看 到 ， 运 算 符 eq 用 来 测试 两 个 字符 串 是 否 相 等 ) 。 运 算 符 = 
用 来 给 变量 赋值 ， 例 如 $Celsius=20。 最 后 ，= 一 用 来 连接 正则 表达 式 和 
每 搜索 的 目标 字符 串 。 在 这 个 例子 中 ， 要 搜索 的 正则 表达 式 是 m/^[0- 
9]+$/， 而 目标 字符 串 是 $reply。 此 程序 在 其 他 语言 中 的 思路 有 所 不 同 ， 
我 们 会 在 下 一 章 看 到 例子 。 

把 = 一 读 作 “匹配 (matches) ”可 能 比较 省 事 ， 所 以 

if ($reply=~m/[0-9]+$/) 

读 作 : 

“如 果 变 量 $reply 所 含 的 文本 能 够 匹配 正则 表达 式 “人 ^[0-9]+$，， 那 


如 果 ^[0-9]+$ | 能够 匹配 $reply 的 内 容 ，$reply= 一 m/A[0-9]+$/ 的 
返回 值 隐 为 tue， 否 则 为 false。if 语 句 使 用 true/false 值 来 决定 输出 什么 信 
A O 


rues) 


请 注意 ， 如 果 $reply 中 包含 任意 的 数字 字符 ，$reply= 一 ny[0-9]+/ 
( 相 比 之 前 的 表达 式 ， 去 掉 了 开头 的 脱 字符 和 结尾 的 美元 符 ) 的 返回 
值 就 是 tue。 两 端的 ^ 人 ...$ | 保证 整个 $reply 只 包含 数字 。 
现在 把 上 面 两 个 例子 结合 起 来 。 首 移 提 示 用 户 输 入 一 个 值 ， 接 收 
这 个 输入 ， 用 一 个 正则 表达 式 来 验证 ， 确 保 输 入 的 是 一 个 数值 。 如 果 
是 ， 我 们 就 计算 相应 的 华氏 温度 ， 否 则 ， 我 们 输出 一 条 报警 信息 .: 


print “Enter a temperature in Celsius:\n”; 
& ， » Te i ` È & 
celsius = <STDIN>; # 从 用 户 处 接受 一 个 输入 


chomp ($celsius) ; # £4 Scelsius 后 面 的 换行 蔡 


if ( $celsius =~ m/*[0-9]+$/) { 

$fahrenheit = ($celsius * 9 / 5) + 32; 并 计算 华氏 温度 

print “S$celsius C is $fahrenheit F\n”; 
} else { 

print “Expecting a number, so I don't understand \"$celsius\”.\n”"; 
} 


请 注意 最 后 的 print 语 句 有 两 个 转 义 的 双 引 号 ， 它 们 的 作用 并 不 是 
标记 引用 字符 串 的 边界 。 对 大 多 数 语言 的 文字 字符 串 (literal string) 来 
说 ， 有 时 候 需 要 转 义 某 些 字符 ， 做 法 跟 正 则 表达 式 中 元 字符 的 转 义 很 
相似 。 在 Perl 中 ， 字 符 串 与 正则 表达 式 的 区 别 并 非 很 重要 ， 但 是 在 
Java ` Python 等 语言 中 却 极为 重要 。“ 一 点 题 外 话 一 一 数量 丰富 的 元 字 
符 ” 这 一 节 (44) 更 详细 地 讨论 了 这 个 问题 (VB.NET 是 个 明显 的 例 
外 ， 在 那里 转 义 双 引 号 用 ”而 不 是 ‘?) 。 

如 果 我 们 把 这 段 程序 保存 为 c2f， 则 运行 结果 如 下 : 

% perl -w c2f 

Enter a temperature in Celsius: 
22 

22 C is 71.599999999999994316 F 

哎呀 ， 看 来 (至少 在 某 些 系 统 上 ) ，Pen 的 简单 的 print 并 不 能 很 好 
地 处 理 浮 点 数 。 

我 不 想 在 本 半 中 讨论 Perl 的 细 市 ， 但 是 我 告诉 你 用 printf (“格式 化 
输出 (print formatted) ”) 可 以 解决 这 个 问题 : 

printf "%.2f C is%.2f F\n",$celsius,$fahrenheit; 


这 里 的 printf 类 似 C 语 言 中 的 printf， 或 者 Pascal、Tcl 、elisp 和 Python 
中 的 format。 它 不 会 更 改变 量 的 值 ， 而 只 是 改变 显示 的 方式 。 现 在 的 结 
果 好 看 多 了 : 


Enter a temperature in Celsius: 
22 
22.00 C is 71.60 F 


向 更 实用 的 程序 前 进 


Toward a More Real-World Example 

让 我 们 扩展 这 个 例子 ， 容 许 输 入 负数 和 可 能 出 现 的 小 数 部 分 。 这 
个 问题 的 计算 部 分 没 问 题 一 一 Perl 通 常情 况 下 不 区 分 整数 和 浮 点 数 。 不 
过 我 们 需要 修改 正则 表达 式 ， 容 许 输入 负数 和 浮 点 数 。 我 们 添加 一 个 
'-? | 来 容许 最 前 面 的 负数 符号 。 实 际 上 ， 我 们 可 以 用 [-+]? | 来 处 
理 开头 的 正 负 号 。 

要 容许 可 能 出 现 的 小 数 部 分 ， 我 们 添加 A-9) ? ，。 转 义 
的 总 号 匹配 小 数 点 ， 所 以 人 [0-9] 关 ， 用 来 匹配 小 数 点 和 后 面 可 能 出 现 
的 数字 。 因 为 Mog aT C)? ， 所 包围 ， 整 个 子 表达 式 都 不 是 
匹配 成 果 所 必须 的 (请 注意 ， 它 与 .310-9]*! 是 截然 不 同 的 ， 对 后 一 
个 表达 式 中 ， 即 使 \, 无 法 匹配 ，'[0-9]** ,也 能 够 匹配 接 下 来 的 数 


F) 


T 


把 这 些 综合 起 来 ， 束 得 到 这 样 的 条 件 判 断 语 句 : 
if (Scelsius =~ m/*[-+]?[0-9]+(\.[0-9]*)?S/) { 
eS A 


它 能 够 匹配 32、-3.723、+98.6 这 样 的 文字 。 不 过 还 不 够 完善 : EC 
不 能 匹配 以 小 数 点 开头 的 数 (例如 .357) 。 当 然 ， 用 户 可 以 添加 一 个 整 
数位 0 来 匹配 (例如 0.357) ， 所 以 我 认为 这 并 不 是 一 个 严重 的 问题 。 
这 个 浮 点 数 问 题 处 理 起 来 得 靠 些 诀 穿 ， 我 们 会 在 第 5 章 详细 讲解 (上 
194) 


成 功 匹 配 的 副作用 


Side Effects of a Successful Match 

我 们 再 进一步 ， 让 这 个 表达 式 能 够 匹配 摄氏 和 华氏 温度 。 我 们 让 
用 户 在 温度 的 末尾 加 上 C 或 者 了 来 表示 。 我 们 可 以 在 正则 表达 式 的 末 
尾 加 上 ICF] 来 匹配 用 户 的 输入 ， 但 还 需要 修改 程序 的 其 他 部 分 ， 以 
便 识 别 用 户 输入 的 温度 类 型 ， 并 进行 相应 的 转换 。 

在 第 1 章 ， 我 们 看 到 过 某 些 版 本 的 egrep 支 持 作 为 元 字符 的 1 > 
\2，、"\3， ， 用 来 保存 前 面 的 括号 内 的 子 表 达 式 实际 匹配 的 文本 (F 
21) 。Perl 和 其 他 许多 支持 正则 表达 式 的 语言 都 支持 这 些 功能 ， 而 且 匹 
配 成 功 之 后 ， 在 正则 表达 式 之 外 的 代码 仍然 能 够 引用 这 些 匹配 的 文 
本 o 


我 们 会 在 下 一 章 看 到 各 种 语言 是 如 何 做 到 这 一 点 的 (137) ， 但 
是 Perl 的 办 法 是 通过 变量 $1、$2、$3 等 等 ， 它 们 指向 第 一 组 、 第 二 
组 、 第 三 组 括号 内 的 子 表 达 式 实际 匹配 的 文本 。 这 未 免 有 点 奇 尾 ， 它 
们 都 是 变量 ， 而 变量 名 则 是 数字 。 正 则 表达 式 匹 配 成 功 一 次 ，Perl 就 会 
设置 一 次 。 

总 结 一 下 ， 在 尝试 匹配 时 ， 正 则 表达 式 中 的 元 字符 \1 指向 之 前 
匹配 的 某 些 文本 ， 匹 配 成 功 之 后 ， 在 接 下 来 的 程序 中 用 $1 来 引用 同样 
的 文本 。 

为 了 保持 例子 的 简洁 ， 和 集中 表现 新 的 地 方 ， 我 先 不 考虑 小 数 部 
分 ， 之 后 再 来 看 尼 。 所 以 ， 我 们 来 看 $1， 请 比较 : 

Scelsius =~ m/*{-+]?[0-9]+4[CF]§/ 
scelsius =~ m/*([-+] 2[0-9]4) ((CF],)$/ 

添加 的 括号 改变 了 正则 表达 式 的 意义 吗 ? 为 了 回答 这 个 问题 ， 我 
们 需要 知道 ， 这 些 括号 是 否 改变 了 星 号 或 者 其 他 量词 的 作用 对 象 ， 或 
是 | 的 意义 。 答 案 是 ， 都 没有 改变 ， 所 以 这 个 表达 式 仍然 能 够 匹配 相 
同 的 文本 。 不 过 ， 他 们 确实 围 住 了 我 们 期 望 匹配 字符 串 中 “有 价值 ? 文 
本 的 子 表达 式 。 如 图 2-1 所 示 ，$1 保 存 那些 数字 ， 而 $2 保 存 C 或 者 F。 
下 一 页 的 图 2-2 是 程序 的 流程 图 ， 我 们 发 现 ， 这 个 图 让 我 们 很 容易 地 决 
定 匹 配 之 后 应 该 干什么 。 


二 个 括号 


$— 


$celsius =~ m/4([-+]?[0-9]+) ([CF])$/ 
í 保存 于 $1 保存 于 $2 
第 -个 括 
闭 括号 


图 2-1: 捕获 型 括号 


ENR 。 从 匹配 结果 获得 
温度 和 类 型 信 息 


图 2-2: 温度 转换 程序 的 逻辑 流程 
示例 2-1: 温度 转换 程序 


print “Enter a temperature (e.g., 32F, 100C):\n"; 
$input = <STDIN>; # 接收 用 户 输入 的 一 行文 本 
chomp ($input); + FRR AAL GR 


if ($input =~ m/*([{-+]?(0-9]+) ((CF])$/) 

| 
E 如 果 程 序 运行 到 此 ， 则 巴 经 匹配 ，$1 保存 数字 ，$2 保存 "C” 或 者 "EF” 
$InputNum = $1; # 把 数据 保存 到 已 命名 变量 中 
$type = $2; #, 保 证 程序 清晰 功 性 


if ($type eq “C") { # 4eq 测 试 两 个 字符 于 是 否 相 等 
# 输入 为 摄氏 温度 ， 则 计算 华氏 温度 
$celsius = $InputNum; 
$fahrenheit = ($celsius * 9 / 5) + 32; 

] else | 
如果 不 是 ”?C”， 则 必然 是 "F”， 计 算 摄氏 温度 
$fahrenheit = $InputNum; 
Scelsius = ($fahrenheit = 32) * 5 / 9; 


| 
i# 现 在 样 到 了 酒 个 温度 值 ， 显 示 结果 ; 
printf “$.2f C is %,2f F\n”, $celsius, $fahrenheit; 
} else { 
E 如 果 最 开始 的 正则 表达 式 无 法 匹配 ， 报 合 
print “Expecting a number followed by \"C\" or \"F\",\n"; 
print “so I don't understand \"Sinput\”.\n"; 


} 
如 果 上 一 页 的 程序 名 叫 convert， 我 们 可 以 这 样 使 用 : 


% perl -w convert 

Enter a temperature (e.g., 32F, 100C): 
39F 

3,89 C is 39.00 E 

% perl -w convert 

Enter a temperature (e.g., 32F, 100C): 
39C 

39.00 © as 102.20 F 

% perl -w convert 

Enter a temperature (e.g., 32F, 100C): 
oops 

Expecting a number followed by “C” or “EF”, 
so I don't understand “oops”. 


错综复杂 的 正则 表达 式 


Intertwined Regular Expressions 

在 Perl 之 类 的 高 级 语言 中 ， 正 则 表达 式 的 使 用 与 其 他 程序 的 逻辑 
是 混合 在 一 起 的 。 为 了 说 明 这 一 点 ， 我 们 对 这 个 程序 做 三 点 改进 : 像 
之 前 一 样 能 够 接收 浮 点 数 ， 容 许 TR c 是 小 写 ， 容 许 数字 和 字母 之 间 
存在 空格 。 这 三 点 全 都 完成 之 后 ， 程 序 就 能 够 接收 "98.6-f 的 输入 。 

我 们 已 经 知道 ， 添 加 (\[0-9] 类 ) ? ， 就 能 够 处 理 浮 点 数 : 


if ($input =~ m/*([-+]?[0-9]+(\. [0-9] *) ?) ({CF])$/) 


请 注意 ， 它 添加 在 第 一 个 括号 内 部 ， 因 为 我 们 用 第 一 组 括号 内 的 
子 表 达 式 来 捕获 温度 的 值 ， 我 们 当然 希望 它 能 够 包含 小 数 部 分 。 不 
过 ， 增 加 了 这 组 括号 之 后 ， 即 使 它 只 是 用 来 分 组 问号 限定 的 对 象 ， 也 
会 影响 到 引用 捕获 文本 的 变量 。 因 为 这 组 括号 的 开 括号 在 整个 表达 式 
中 排 在 第 二 位 (从 左 同 右 数 ) ， 所 以 它 匹 配 的 文本 存 入 $2 〈 见 图 2- 
3) 。 


保存 于 $1 
保存 于 $2 保存 于 $3 


>is aber! 


$input =~ m/*([-+]?[0-9]4(\. [0-9] *)?) ([CF))$/ 


第 1 个 开 括号 第 2 个 开 括号 第 3 个 开 括 号 


图 2-3: REMS 

图 2-3 说 明了 括号 的 嵌 套 关系 。 在 '[CF], 之 前 添加 一 组 括号 并 不 会 
直接 影响 整个 正则 表达 式 的 意义 ， 但 是 会 产生 间接 的 影响 ， 因 为 现在 
TICE], 所 在 的 括号 排 在 第 3 位 。 这 也 意味 着 我 们 需要 把 $type 的 赋值 从 
$2 改 为 $3 《如 果 不 硕 望 这 么 做 ， 可 以 参考 下 一 页 的 补充 内 容 ) 。 

接 下 来 ， 我 们 要 处 理 数 字 和 字母 之 间 可 能 出 现 的 空格 。 我 们 知 
道 ， 正则 表达 式 中 的 空格 字符 正好 对 应 匹配 文本 中 的 空格 字符 ， 所 以 
‘ke | 能 够 匹配 任意 数目 的 空格 (但 并 不 是 必须 出 现 空格 ) : 

if ($input =~ m/^([-+]?[0-9]+(\.[0-9]*) Es iad [CF] ) $/) 

但 这 样 还 不 够 灵活 ， 而 我 们 希望 的 是 开发 一 个 能 够 实际 应 用 的 程 
序 ， 所 以 必须 容许 其 他 的 空白 字符 (whitespace) 。 例 如 常见 的 制 表 符 
(tabs) 。 但 是 M 类， 并 不 能 匹配 空格 ， 所 以 我 们 需要 一 个 字符 组 来 
匹配 两 者 [加 ] 类 | 。 

请 把 上 面 这 个 子 表 达 式 与 CXA) ， 进行 对 比 ， 你 能 发 现 这 
其 中 的 巨大 差异 吗 ? 可 请 翻 到 下 一 页 查看 答案 。 

本 书 中 空格 字符 和 制 表 符 都 很 常见 ， 因 为 我 使 用 :和 国 来 表示 它 
们 。 不 笠 的 是， 在 屏幕 上 却 不 是 如 此 。 如 果 你 见 到 只 ， 在 没有 实际 测 
试 过 以 前 ， 只 能 猜测 这 是 空格 符 还 是 制 表 符 。 为 了 方便 使 用 ，Perl 提 供 
了 "Wt 这 个 元 字符 。 它 能 够 匹配 制 表 符 一 一 相 比 真正 的 制 表 符 ， 它 的 


好 处 就 在 于 看 得 更 清楚 ， 所 以 我 会 在 正则 表达 式 中 采用 这 个 元 字符 。 
于 是 (TR) * , 变 成 Ae, 。 

Perl 还 提供 了 一 些 简 便 的 元 字符 ， 例 如 nn， (表示 换行 符 ) ， 
AN (ASCII 的 进 纸 符 formfeed) ， 和 “\b，( 退 格 符 ) 。 不 过 ， 确 切 地 
i, Nb 在 某 些 情况 下 是 退 格 符 ， 有 些 情况 下 又 表示 单词 分 界 符 。 它 
怎么 能 吴 兼 数 职 呢 ? 下 一 世 我 们 会 看 到 。 

一 点 题 外 话 一 一 数量 丰富 的 元 字符 

在 前 面 的 例子 里 我 们 见 到 了 mn， 但 是 nm 都 出 现在 字符 串 而 不 是 正则 
表达 式 中 。 就 像 多 数 语 言 一 样 ，Perl 的 字符 串 也 有 自己 的 元 字符 ， 它 们 
完全 不 同 于 正则 表达 式 元 字符 。 新 程序 员 常 犯 的 错误 就 是 混 消 了 这 两 
个 概念 (VB.NET 是 个 例外 ， 因 为 其 中 字符 串 的 元 字符 少 得 可 怜 。 字 
和 从 捉 的 元 字符 中 有 一 些 跟 正 则 表达 式 中 对 应 的 元 字符 一 模 一 样 。 你 可 
以 在 字符 串 中 用 \t 加 入 制 表 符 ， 也 可 以 在 正则 表达 式 中 用 元 字符 \ 来 
匹配 制 表 符 。 


非 捕获 型 括号 (2: 


在 图 2-3 中 , ANAS OM (\. (0-91) ?1 来 正确 分 组 ,所 以 我 们 能 够 用 一 个 问号 正 
确 地 作用 于 上 整个.[0-9]*)， 把 它们 作为 可 选项 部 分 这样 的 副作用 就 是 这 个 括号 内 
的 子 表 达 式 捕获 的 文本 保存 到 $2 中 ， 而 我 们 并 不 会 使 用 $2。 如 果 有 这 样 一 种 括号 ， 它 
只 能 用 于 分 组 而 不 会 影响 文本 的 捕获 和 变 营 的 保存 ， 问 题 就 好 办 多 了 。 
Perl 以 及 近期 出 现 的 其 他 正则 表达 式 流派 提供 了 这 个 功能 (…) ) 用 来 分 组 和 捕获 ， 而 
(2: 表示 只 分 组 不 捕获 ,使 用 这 个 表示 法 ，" 开 括号 ”是 3 个 宇 母 板 成 的 序列 (2:， 
这 看 起 来 很 古怪 。 这 里 的 “?，” 和 表示 “可 选项 ”的 '?1 元 字符 没有 任何 联系 (THE 
到 第 90 页 了 解 这 个 古怪 的 表示 法 的 来 历 )， 
VA, MADARA ER: 

if ($input =~ m/*({-+]2[0-9]+ (2:\, [0-9] *)2) (CET) $/) 
现在 , 即使 【CE]) 两 端的 括号 的 确 是 排 在 第 三 位 ， 它 匹配 的 文本 也 会 保存 到 $2 F, A 
A (2:0) HEB Mah Rit K, 
这 样 做 的 好 处 有 两 点 ， 第 一 是 避免 了 不 必要 的 横 获 柑 作 ， 提 高 了 匹配 效率 (我 们 会 在 
第 6 章 详 细 讨 论 效率 问题 )。 另 一 个 好 处 是 ， 总 的 来 说 ,根据 情 况 选择 合适 的 括号 能 弟 
让 程序 更 清晰 ， 看 代码 的 人 不 会 被 括号 的 具体 细节 所 困扰， 
另 一 方面 ，(2:…)1 表示 法 确实 不 够 美观 ， 或 者 说 它 会 增加 整个 表达 式 的 阅读 难度 ， 它 
带 来 的 好 处 能 够 抵消 这 些 问 题 吗 ) 我 个 人 喜欢 根据 需要 选择 合适 的 括号 ， 但 是 在 本 例 
中 ， 或 许 不 值得 这 样 麻 烦 。 如 果 匹 配 只 需要 进行 一 次 (而 不 需要 在 循环 中 多 次 匹配 ) ， 
效率 并 不 重要 ， 
在 本 章 中 , 我 全 部 采用 (…)j， 即 使 不 需要 捕获 文本 时 也 是 如 此 ,因为 这 样 看 起 来 更 清 
R, 


这 种 相似 性 无 疑 方便 了 使 用 ， 但 是 我 必须 强调 区 分 这 两 种 元 字符 
的 重要 性 。 对 于 \t 这 样 简单 的 情况 来 说 或 许 并 不 重要 ， 但 对 于 我 们 将 要 
看 到 的 各 种 不 同 的 语言 和 工具 来 说 ， 知 道 在 什么 情况 下 应 该 使 用 什么 
元 字符 是 极其 重要 的 。 
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(AM) +, fo" (-* |e) | 的 异同 
CR | 容许 "或 网 + 的 匹配 ， 它 能 蚁 匹配 若干 空格 符 (也 可 以 没有 ) 以 及 若干 


WAR (也 可 以 没有 ) ， 不 过 并 不 容许 制 表 符 和 空格 符 的 混合 体 ， 

相反 ，[' 风 ]* 1 能够 匹配 任意 多 个 "网 。 对 于 字符 囊 “ 罗 …, 它 可 以 匹配 3 次 ， 第 一 次 是 
制 表 符 ， 后 两 次 是 空格 符 ， 

ASHE (AS ("| 图 ) * 1 是 等 价 的 ， 尽管 因 为 第 4 章 将 会 解释 其 原因 ， 字 符 组 的 
效率 通常 还 是 会 高 一 点 。 


我 们 已 经 见 过 不 同 的 字符 组 之 间 的 冲突 。 在 第 1 章 ， 使 用 egrep 时 ， 
我 们 把 正则 表达 式 包 含 在 单 引 号 中 。 整 个 egrep 命 令 行 写 在 command- 
shell 提 示 和 从，shell 能 够 认 出 它 目 己 的 元 字符 。 例 如， 对 shell 来 说 ,空格 
符 就 是 一 个 元 字符 ， 它 用 来 分 隔 命令 和 参数 ， 或 者 参数 与 参数 。 在 许 
多 shell 中 ， 单 引号 是 元 字符 ， 单 引号 内 的 字符 串 中 的 字符 不 需要 被 当 
作 元 字符 处 理 (DOS 使 用 双 3 引 号 ) 。 

在 shell 中 使 用 引号 容许 我 们 在 正则 表达 式 中 使 用 空格 。 和 否则 ，shell 
会 把 空格 认 作 参 数 之 间 的 分 隔 符 ， 而 不 是 把 整个 正则 表达 式 传递 给 
egrep。 许 多 shell 能 够 识别 的 元 字符 包括 $、 尖 、? 之 类 我 们 在 正则 
表达 式 中 也 会 用 到 这 些 元 字符 。 

目前 ， 所 有 关于 shell 的 元 字符 和 Perl 字 符 串 的 元 字符 的 讨论 都 还 与 
正则 表达 式 本 身 没 有 任何 关联 ， 但 它们 会 影响 到 现实 环境 中 正则 表达 
式 的 使 用 。 随 着 阅读 的 深入 ， 我 们 会 见 到 许多 (有 了 时候 还 很 复杂 ) 情 
况 ， 我 们 需要 同时 在 不 同 层级 上 使 用 元 字符 交互 (multiple levels of 
simultaneously interacting metacharacters) ° 

ABA Nb 的 情况 昵 ? 这 是 一 个 正则 表达 式 的 问题 : 在 Pen 的 正则 
表达 式 中 ， Nb 通常 是 匹配 一 个 单词 分 界 符 的， 但 是 在 字符 组 中 ， 它 
匹配 一 个 退 格 符 。 单 词 分 界 符 作为 字符 组 的 一 部 分 则 没有 任何 意义 ， 


所 以 Perl 完 全 可 以 用 它 来 匹配 其 他 的 字符 。 第 1 章 曾 提醒 我 们 ， 字 符 
组 < 子 语言 "的 规范 不 同 于 正则 表达 式 主体 ， 这 条 规则 也 适用 于 Perl ( 包 
括 任何 其 他 流派 的 正则 表达 式 ) 。 

用 匹配 所 有 “空白 

讨论 空白 的 问题 时 ， 我 们 最 后 使 用 的 是 r[sd# ，。 这 样 做 没 问 
题 ， 但 许多 流派 的 正则 表达 式 提供 了 一 种 方便 的 办 法 : sj。 "sj 看 
起 来 类 似 rt Wy 代表 制 表 符 ， 而 s 则 能 表示 所 有 表示 “空白 字符 
(whitespace character) "的 字符 组 ， 其 中 包括 空格 符 、 制 表 符 、 换 行 符 
和 回 车 符 。 在 我 们 的 例子 中 ， 换 行 符 和 回 车 符 并 不 需要 特别 考虑 ， 但 
是 "sx BE Tgk, 要 简洁 。 而 且 不 久 你 就 会 习惯 这 种 表示 法 ， 
在 复杂 的 表达 式 中 ， Msk) 更 加 易于 理解 。 

现在 我 们 的 程序 变 成 ; 


$input =~ m/*([-+]?[0-9]+(\.[0-9]*) ?)\s*([CF])$/ 


最 后 ， 我 们 还 必须 能 够 处 理 表示 温度 制式 的 小 写字 母 。 简 单 的 办 
法 是 直接 把 小 写字 母 添加 到 字符 组 中 ，'[CFcf]，。 不 过 ， 我 更 愿意 使 

$input=~m/A([-+]?[0-9]+(\.[0-9] * )?)\s * ([CFI)$/i 

添加 的 这 个 i 称 作 “修饰 符 (modifier) ”， 把 它 放 在 m/.../ 结 构 之 
后 ， 告 诉 Perl 进 行 不 区 分 大 小 写 的 匹配 。 修 饰 符 其 实 不 是 正则 表达 式 的 
一 部 分 ， 而 是 m/.../ 结 构 的 一 部 分 ， 这 个 结构 告诉 Perl 使 用 者 的 意图 
(应 用 一 个 正则 表达 式 ) ， 以 及 采用 的 正则 表达 式 〈 在 斜 线 之 间 的 部 
T) 。 我 们 曾 看 到 过 这 种 功能 ， 即 egrep 的 -i 参数 (15) 。 

时 时 刻 刻 说 和 修饰 符 (the i modifier) ”有 点 磋 烦 ， 所 以 我 们 通常 
说 “/i”， 即 使 真正 的 写法 并 不 是 “i”。 fi 只 是 在 Pel 中 指定 修饰 符 的 办 法 
之 一 一 在 下 一 章 ， 我 们 会 看 到 其 他 的 办 法 ， 以 及 其 他 语言 实现 此 功 
能 的 写法 。 在 本 章 后 面 的 部 分 ， 我 们 还 会 看 到 其 他 的 修饰 符 ， 例 如 /g 
(表示 “全 局 匹配 (global match) ”) 以 及 /x (表示 “宽松 排列 的 表达 式 
(free-form expressions) ”) 。 


现在 ， 我 们 已 经 做 了 不 少 修改 了 ， 来 看 看 新 的 程序 : 


% perl -w convert 

Enter a temperature (e.g., 32F, 100C): 
32 f 

0.00 C is 32.00 F 

% perl -w convert 

Enter a temperature (e.g., 32F, 100C): 
50 c 

10.00 C is 50,00 下 


哎呀 ! 你 是 否 注意 到 了 ， 第 二 次 运行 时 我 们 输入 的 是 摄氏 50 度 ， 
结 采 被 认 成 了 华氏 50 度 ? 看 看 程序 的 逻辑 ， 你 找 出 问题 了 吗 ? 
再 来 看 程序 的 片段 : 


if ($input =~ m/^[-+]?[0-9]+(\.[0-9]*)?)\s*([CF])$/i) 


$type = $3; # 把 数据 保存 到 以 命名 的 变量 ， 让 程序 更 易 懂 


if ($type eq “C”) { # 'eq' 测试 两 个 字符 串 是 否 相等 


虽然 我 们 的 正则 表达 式 能 够 接受 小 写 的 f， 程 序 的 其 他 部 分 却 没有 
相应 的 修改 。 在 这 个 程序 里 ， 只 有 $type 是 ‘C’ 的 时 候 ， 才 作为 摄氏 度 处 
理 。 因 为 程序 同样 可 以 接受 小 写 的 c， 我 们 需要 修改 $type 的 判断 : 

if ($type eq "C" or $type eq "c") { 

实际 上 ， 因 为 本 书 是 天 于 正则 表达 式 的， 我 或 许 这 样 做 : 

if ($type=~m/c/i) { 

现在 ， 大 小 写 的 情况 都 能 应 付 了 。 最 终 的 程序 如 下 所 示 。 这 个 例 

告诉 我 们 ， 正 则 表达 式 的 使 用 方式 ， 可 能 会 影响 到 程序 的 其 他 部 


示例 2-2: 温度 转换 程序 一 一 最 终 版 本 


print “Enter a temperature (e.g., 32F, 100C):\n"; 
Sinput = <STDIN>; E 接收 用 户 输入 的 一 行文 本 
chomp ($input); # 去 掉 Sinput 末尾 的 换行 
if ($input =~ m/*([-+]?[0-9]+(\. [0-9] *) 2?) \s* ((CF])$/i) 
{ 
# 如 果 运 行 到 此 ， 则 已 经 匹配 ，$1 保存 数值 ，$3 保存 C 或 者 下 
$InputNum = $1; # 把 数据 保存 到 已 命名 的 变量 
Stype = §3; # .保证 程序 的 可 读 性 
if ($type =~ m/c/i) { E ISEE So” or “Ct? 
# 输 入 的 是 摄氏 温度 ， 计 算 华氏 温度 
Scelsius = $InputNum; 
Sfahrenheit = ($celsius * 9 / 5) + 32; 
} else { 
# 如 果 不 是 “C"， 则 必定 是 “FE"， 所 以 计算 摄氏 温度 
Sfahrenheit = SInputNum; 
Scelsius = ($fahrenheit - 32) * 5 / 9; 
} 
# 现在 两 个 值 都 有 了 ， 给 出 结果 ; 
printf “%.2f C is %.2f F\n”, Scelsius, $fahrenheit; 
} else { 
# 开始 的 表达 式 无 法 匹配 ， 发 出 警报 
print “Expecting a number followed by \"C\” or \"F\",\n"; 
print “so I don't understand \"Sinput\”.\n”; 


暂停 片刻 


Intermission 


RAHN AEBS Fe ET FAR Perl, BEE] SIPS INK 
于 正则 表达 式 的 知识 ° 

1. 许 多 工具 都 有 自己 的 正则 表达 式 流派 。Perl 和 egrep 可 能 属于 同 
一 个 流派 ， 但 是 Perl 的 正则 表达 式 中 的 元 字符 更 多 。 许 多 其 他 的 语言 ， 
类 似 Java、Python、.NET 和 TCL， 它 们 的 流派 类 似 Perl 。 

2.Perl 用 $variable= 一 my/regex/ 来 判断 一 个 正则 表达 式 是 否 能 匹配 某 
PFFF o ma MWE (match) ”， 而 斜 线 用 来 标注 正则 表达 式 的 边 
界 (它们 本 身 不 属于 正则 表达 式 ) 。 整 个 测试 语句 作为 一 个 单元 ， 返 
回 true 或 者 false 值 。 


3. 元 字符 一 一 具有 特殊 意义 的 字符 一 一 的 定义 在 正则 表达 式 中 并 不 
是 统一 的 。 之 前 在 天 于 shell 和 双 3 引 号 引用 的 字符 串 的 例子 中 我 们 讲 
过 ， 元 字符 的 含义 取决 于 具体 的 情况 。 了 解 具体 情况 (shell、 正 则 表 
达 式 、 字 符 串 ) ， 其 中 的 元 字符 及 其 作用 ， 对 学 习 和 使 用 Perl、PHP、 
Java ` Tcl ` GNU Emacs ` awk ` Python 或 其 他 高 级 语言 是 非常 重要 的 

(当然 ， 在 正则 表达 式 内 部 ， 字 符 组 有 上 自己 的 “ 子 语言 >， 其 中 的 元 字 
符 是 不 同 的 ) 
4.Perl 和 其 他 流派 的 正则 表达 式 提 供 了 许多 有 用 的 人 简 记 法 

(shorthands) : 

\t 制 表 符 

\n 换行 符 

\r BAH 

\s 任何 “空白 ”字符 (例如 空格 符 、 制 表 符 、 进 纸 符 等 ) 

\S 除 \sl 之 外 的 任何 字符 

\w [a-zA-20-9]J (在 \w+l 中 很 有 用 ， 可 以 用 来 匹配 一 个 单词 ) 

\W 除 \wj 之 外 的 任何 字符 ， 也 就 是 [^a-zA-20-9]] 

\d “[0-9]J， 即 数字 

\D 除 八 d 外 的 任何 字符 ， 即 ![^0-9]， 

5.6 修 饰 符 表示 此 测试 不 区 分 大 小 写 。 尽 管 写 法 是 “ii ， 其 实 信 只 
是 跟 在 表示 结尾 的 矢 线 之 后 。 

6.0 (? ，...) ， 这 个 麻烦 的 写法 可 以 用 来 分 组 文本 ， 但 并 不 捕 
获 o 

7. 匹 配 成 功 之 后 ，Perl 可 以 用 $1、$2、$3 之 类 的 变量 来 保存 相对 应 
的 ” (...) ) 括号 内 的 子 表达 式 匹配 的 文本 。 使 用 这 些 变量 ， 我 们 能 够 
用 正则 表达 式 从 字符 串 中 提取 信息 (其 他 的 语言 所 使 用 的 方式 有 所 不 
同 ， 我 们 会 在 下 一 章 看 到 例子 ) 。 

子 表 达 式 的 编号 按照 开 括 号 的 出 现 先 后 排序 ， 从 1 开始 。 子 表达 
TURTLE, 例如 『 (Washington CDC) ? ) 」。 如 果 只 是 希望 分 
组 ， 也 可 以 使 用 "(...) ，， 但 副作用 是 ， 它 们 捕获 的 文本 仍然 会 保存 
到 特殊 的 变量 中 。 


使 用 正则 表达 式 修改 文本 


Modifying Text with Regular Expressions 

到 现在 ， 我 们 遇 到 的 例子 都 只 是 从 字符 串 中 “提取 ”信息 。 现 在 我 
们 来 看 Pel 和 其 他 许多 语言 提供 的 一 个 正则 表达 式 特性 : BR 

(substitution， 也 可 以 叫 “ 查 找 和 替换 (search and replace) ”) 。 

我 们 已 经 看 到 ，S$var=~m/regex/ 笑 试用 正则 表达 式 来 匹配 保存 在 
变量 中 的 文本 ， 并 返回 表示 能 否 匹配 的 布尔 值 。 与 之 类 似 的 结构 $var= 
~s/regex/replacement/ 则 更 进一步 : 如 采 正 则 表达 式 能 够 匹配 $var 中 的 
某 段 文本 ， 则 将 这 段 匹 配 的 文本 符 换 为 replacement。 其 中 regex 与 之 前 
m/.../ 的 用 法 一 样 ， 而 replacement (位 于 第 二 个 和 第 三 个 斜 线 之 间 ) 则 
是 作为 双 引 号 内 的 字符 串 。 这 就 是 说 ， 在 其 中 可 以 使 用 变量 一 一 例如 
$1、$2 一 一 来 引用 之 前 匹配 的 具体 文本 。 

所 以 ， 使 用 $var= 一 s/.../.../ 可 以 改变 $var 中 的 文本 (如 果 没 有 找到 
匹配 的 文本 ， 也 就 不 会 有 替换 发 生 ) 。 例 如 ， 如 果 g$var 包 括 
Jeff-Friedl, jA77: 

$var=~ s/Jeff/Jeffrey/; 

$var 的 值 就 变 成 Jeffery:Friedl。 如 果 再 运行 一 次 ， 就 得 到 
Jeffreyrey'Friedl。 要 避免 这 种 情况 ， 也 许 我 们 需要 添加 表示 单词 分 界 的 
元 字符 。 在 第 1 章 我 们 提 到 过 ， 某 些 版 本 的 egrep 支 持 \< MNN | 作 
为 “单词 起 始 >” 和 "单词 结束 ”的 元 字符 。Penl 提 供 了 统一 的 元 字符 Nb] 来 
代表 这 两 者 : 

$var=~s/\bJeff\b/Jeffrey/; 

这 里 有 个 小 测验 : m.. ASE, s/../.. AL ERB TS, Aa 
第 47 页 介绍 的 生 〈 将 这 个 修饰 符 放 在 replacement 之 后 ) 。 那 么 ， 这 个 表 
IATL: 

$var=~s/\bJeff\b/Jeff/i; 

的 功能 是 什么 呢 ? wM FR ABSS ° 


例子 : 公 画 生成 程序 


Example:Form Letter 
TEATE BY FRAN T SCAR Ro THE PER 
统 ， 它 包含 很 多 公 画 模板 ， 其 中 有 一 些 标 记 ， 对 每 一 封 具 体 的 公 画 来 
说 ， 标 记 部 分 的 值 都 有 所 不 同 。 
这 里 有 一 个 例子 : 
Dear =FIRST=, 
You have been chosen to win a brand new =TRINKET=! Free! 


Could you use another =TRINKET= in the =FAMILY= household? 
Yes =SUCKER=, I bet you could! Just respond by...... 


对 特定 的 接收 和 信 ， 变 量 的 值 分 别 为 : 


Sgiven = “Tom”; 
Sfamily = “Cruise”; 
Swunderprize = “100% genuine faux diamond”; 


准备 好 之 后 ， 束 可 以 用 下 面 的 语句 “填写 模板 ”: 


Sletter =~ s/=FIRST=/Sgiven/g; 

Sletter =~ s/=FAMILY=/S$family/g; 

Sletter =~ s/=SUCKER=/S$given $family/g; 

$letter =~ s/=TRINKET=/fabulous $wunderprize/g; 


ECAP AN ET EMI FEA Ci el Bid, FREI ASE 
本 替换 它 。 用 于 替换 的 文本 其 实 是 Perl 中 的 字符 串 ， 所 以 它们 能 够 引 
用 变量 ， 就 像 上 面 的 程序 那样 。 例 如， 
Ss/=TRINKET=/fabulous $wunqerprize/g 中 下 画 线 部 分 在 程序 运行 时 


的 值 就 是 “fabulous$wunderprize”。 如 果 只 需要 生成 一 份 公 芳 ， 完 全 可 以 
不 用 变量 替换 ， 直 接 照 需 要 的 样子 生成 就 是 。 但 是 ， 使 用 变量 替换 能 
够 实现 目 动 化 的 操作 ， 例 如 可 以 从 一 个 清单 读 入 信息 。 

我 们 还 没 介 绍 过 /g“ 全 局 蔡 换 ” (global replacement) 的 修饰 特 。 它 
告诉 s/.../.../ 在 第 一 次 替换 完成 之 后 继续 搜索 更 多 的 匹配 文本 ， 进 行 更 
多 的 替换 。 如 果 需 要 检查 的 字符 串 包含 多 行 需 要 替换 的 文本 ， 每 条 过 
换 规则 都 对 所 有 行 生 效 ， 我 们 吏 必 须 使 用 /g。 

结果 是 可 以 预见 的 ， 不 过 相当 有 趣 : 


Dear Tom, 

You have been chosen to win a brand new fabulous 100% genuine faux diamond! 
Free! Could you use another fabulous 100% genuine faux diamond in the Cruise 
household? Yes Tom Cruise, I bet you could! Just respond by.... 


举例 : 修整 股票 价格 


Example:Prettifying a Stock Price 


男 一 个 例子 是 ， 我 在 使 用 Perl 编写 的 股票 价格 软件 时 遇 到 的 问 

题 。 我 得 到 的 价格 看 起 来 是 这 样 “9.0500000037272”。 这 里 的 价格 显然 

应 该 是 9.05， 但 是 因为 计算 机 内 部 表示 浮 点 的 原理 ，Perl 有 了 时 会 以 没 什 

么 用 的 格式 输出 这 样 的 结果 。 我 们 可 以 像 温度 转换 例子 中 的 那样 用 

printf 来 保证 只 输出 两 位 小 数 ， 但 是 此 处 并 不 适用 。 当 时 ， 股 价 仍然 是 

以 分 数 的 形式 给 出 的 ， 如 果 某 个 价格 以 1/8 结 尾 ， 则 应 该 输出 3 位 小 数 
(“125”) ， 而 不 是 两 位 。 


测验 答案 


o 50 页 的 测验 的 答案 

$var =~ s/\bJeff\b/Jeff/i 实现 了 什么 功能 ? 

这 个 问题 可 能 让 你 困惑 。 如 果 前 面 的 正则 表达 式 用 \bJEFF\bi 或 者 \bjeff\b) 或 者 是 
\bjEfF\bj 可 能 看 得 更 清楚 。 因 为 /i 的 存在 ,搜索 “Je 作 ”这 个 词 是 不 区 分 大 小 写 的 。 
而 所 有 匹配 的 字符 串 都 会 被 替换 为 “Jeff ， 第 一 个 字母 是 大 写 ， 其 他 为 小 写 〈/i 对 
replacement 的 文本 没有 影响 ， 不 过 第 7 章 讨论 的 某 些 修饰 竺 不 是 如 此 ) 。 

RHA, “jeff” 这 个 单词 ， 无 论 大 小 写 的 情况 如 何 ， 都 会 被 替换 为 “Jeff 。 


我 把 自己 的 要 求 归 结 为 : 通常 是 保留 小 数 点 后 两 位 数字 ， 如 果 第 
三 位 不 为 零 ， 也 需要 保留 ， 去 掉 其 他 的 数字 。 结 果 就 是 
12.3750000000392 或 者 12.375 会 被 修正 为 “12.375”， 而 37.500 被 修 
正 为 “37.50”。 这 就 是 我 要 的 结 

那么 ， 我 们 该 如 何 做 呢 ? $price 变 量 包含 了 需要 修正 字符 串 ， 让 我 
们 用 这 个 表达 式 : 


$price=~s/(\.\d\d[1-9]?)\d * /$1/ 

(提示 : 49 页 介绍 了 \d 这 个 元 字符 ， 它 用 来 匹配 一 个 数字 字 
符 。) 

最 开始 的 \, 匹配 小 数 点 。 接 下 来 的 dd 匹配 开头 的 两 位 数 
Fo [1-9]? | 匹配 可 能 跟 在 后 面 的 非 零 数字 。 到 这 里 ， 任 何 匹 配 的 文 
本 都 是 我 们 希望 保留 的 ， 所 以 我 们 用 括号 把 它 保存 到 $1 中 。 然 后 将 $1 
HLA replacement FFE P o MRE RAINES, RATHS 
换 $1 一 一 这 样 做 没什么 意义 。 但 如 果 在 $1 的 括号 之 外 还 有 能 够 匹配 的 
字符 ， 因 为 它们 没有 出 现在 replacement 字 符 串 中 ， 所 以 会 被 删除 。 也 就 
是 说 , “被 删除 的 "文本 是 其 他 多 余 的 数字 ， 也 就 是 正则 表达 式 末尾 \d 
# ,匹配 的 字符 。 

请 记 住 这 个 例子 ， 在 第 4 章 我 们 会 学 习 匹 配 过 程 背 后 的 重要 原 
理 ， 那 时 候 还 会 遇 到 这 个 例子 。 人 研究 它 可 以 学 到 非常 有 价值 的 知识 。 


目 动 的 编辑 操作 


Automated Editing 

写作 本 章 时 ， 我 过 到 了 男 一 个 简单 但 真实 存在 的 例子 。 当 时 我 需 
要 登录 到 太平 洋 对 兰 的 一 台 机 器 上 ， 但 是 网 速 非常 慢 。 按 下 回 车 得 等 
一 分 多 钟 才 能 见 到 反应 ， 而 我 只 需要 对 某 个 文件 进行 一 些小 的 改动 ， 
运行 一 个 重要 的 程序 。 实 际 上 ， 我 要 做 的 只 是 将 出 现 的 所 有 sysread 改 
为 read。 改 动 的 次 数 并 不 多 ， 但 因为 网 络 太 慢 ， 使 用 全 屏 编辑 器 显然 是 
不 可 能 的 。 

下 面 是 我 的 办 法 : 

% perl-p-i-e's/sysread/read/g file 

这 条 命令 中 的 Perl 程 序 是 s/sysread/read/g (是 的 ， 这 就 是 一 个 完整 
的 Perl 程 序 一 一 参数 -e 表示 整个 程序 接 在 命令 的 后 面 ) 。 参 数 -p 表示 对 
目标 文件 的 每 一 行进 行 查 找 和 替换 ， 而 -i 表 示 将 替换 的 结果 写 回 到 文 
人 

请 注意 ， 这 里 没有 明确 写 出 查找 和 替换 的 目标 字符 串 (就 是 说 ， 
没有 $var=~...) ， 因 为 -p 参 数 就 表示 对 目标 文件 的 每 行文 本 应 用 这 上 段 


程序 。 同 样 ， 因 为 我 用 了 /g 这 个 修饰 符 ， 束 可 以 保证 在 一 行文 本 中 可 以 
FITERE o 

尽管 在 这 里 我 只 是 对 一 个 文件 进行 操作 ， 但 也 很 容易 在 命令 行 中 
WW eT SOF, MW Perl Si Sika SV APT NEI NS ° 
oH, ARAN AS, BOTH a ee A BOC o CE Tl AA 
的 编辑 方式 是 Perl 独 有 的 ， 但 这 个 例子 告诉 我 们 ， 即 使 执行 的 是 简单 
的 任务 ， 作 为 脚本 语言 一 部 分 的 正则 表达 式 的 功能 仍然 非常 强大 。 


处 理 邮件 的 小 工具 


A Small Mail Utility 

来 看 另 一 个 小 工具 的 例子 。 一 个 文件 中 保存 着 E-mail 信息 ， 我 们 
需要 生成 一 个 用 于 回复 的 文件 。 在 准备 过 程 中 ， 我 们 需要 引用 原始 的 
信息 ， 这 样 就 能 很 容易 地 把 回复 插入 各 个 部 分 。 在 生成 回复 邮件 的 
header 时 ， 我 们 还 需要 删除 原始 信息 邮件 的 header 中 不 需要 的 行 。 

下 一 页 的 补充 内 容 是 一 个 邮件 文件 的 范本 。header 包公 了 我 们 天 
心 的 字段 : 日 期 、 主 题 等 一 一 但 也 包括 了 我 们 不 关注 的 字段 ， 这 些 字 
段 需 要 删除 。 如 果 我 们 的 脚本 程序 叫做 mkreply， 而 原始 的 信息 保留 在 
king.in 中 ， 我 们 会 用 下 面 的 命令 来 生成 回复 模板 : 

% perl-w mkreply king.in > king.out 

(-w 它 用 来 打开 Penl 的 额外 警告 功能 ，38) 


E-mail Message 范本 


From elvis Thu Feb 29 11:15 2007 

Received: from elvis@localhost by tabloid.org (8.11.3) id KA8CMY 
Received: from tabloid.org by gateway.net (8.12.5/2) id N8XBK 
To: jfriedl@regex.info (Jeffrey Friedl) 

From: elvis@tabloid.org (The King) 

Date: Thu, Feb 29 2007 11:15 

Message-Id: <2007022939939.KA8CMY@tabloid.org> 

Subject: Be seein’ ya around 

Reply-To: elvis@hh.tabloid.org 

X-Mailer: Madam Zelda's Psychic Orb [version 3.7 PL92] 


Sorry I haven't been around lately. A few years back I checked into 
that ole heartbreak hotel in the sky, ifyaknowwhatImean. 
The Duke says “hi”. 

Elvis 


我 们 希望 程序 的 输出 结果 king.out 包 括 下 面 的 内 容 : 


To: elvis@hh.tabloid.org (The King) 
From: jfriedl@regex.info (Jeffrey Friedl) 
Subject: Re: Be seein' ya around 


On Thu, Feb 29 2007 11:15 The King wrote: 
|> Sorry I haven't been around lately. A few years back I checked 
|> into that ole heartbreak hotel in the sky, ifyaknowwhatImean. 
|> The Duke says “hi”. 
|> Elvis 
现在 我 们 来 分 析 。 为 了 生成 新 的 header, ell 了 要 知道 目标 地 址 
( 即 本 例 中 的 elvis@hh.tabloid.org， 来 自 原始 信息 中 的 Reply-To 字 
Br) ， 收 件 人 的 姓名 (The King) ， 我 们 自己 的 地 址 和 姓名 ， 以 及 主 
题 。 另 外 ， 为 了 生成 邮件 正文 的 导入 部 分 (introductory line) ， 我 们 还 
需要 知道 原始 邮件 的 日 期 。 
这 些 工 作 可 以 分 为 下 面 3 步 : 
1. 从 原始 邮件 的 header 中 提取 信息 ; 
2. 生 成 回复 邮件 header; 


3. 打 印 原始 邮件 信息 ， 行 首 用 :>… 缩 进 。 

这 样 考 虑 有 点 超前 了 一 一 在 没有 诀 定 程序 如 何 读 入 数据 之 前 ， 就 
关心 起 如 何 处 理 数据 了 。 洱 运 的 是 ，Perl 提 供 了 神奇 的 “< > ”操作 符 。 
在 应 用 到 变量 $variable 上 时， 使 用 “$variable=< >”， 这 个 有 趣 的 结构 能 
够 每 次 读 入 一 行 数据 。 输 入 的 数据 来 目 命 令 行 中 Perl 脚 本 之 后 列 出 的 文 
件 名 (例如 上 面 例子 中 的 king.in) 。 

请 不 要 混 消 操作 符 < > 5 Shel hy E E [el FF “> filename” 2 4 E 
Perl 的 大 于 /小 于 号 。Perl 中 的 < > 相当 于 其 它 语言 中 的 getline () K 
BY o 


读 入 所 有 输入 数据 之 后 ，< > 很 方便 地 返回 未 定义 的 值 (作为 布 
尔 值 处 理 ) ， 所 以 整个 文件 可 以 这 样 处 理 : 
while ($line = <>) { 
„A $line... 
} 
我 们 会 用 类 似 的 办 法 来 处 理 邮 件 ， 但 是 邮件 本 里 的 性 质 决 定 了 我 
们 必须 对 邮件 header 特殊 处 理 。 第 一 个 衬 行 之 前 的 信息 是 header， 之 后 
的 则 是 正文 部 分 。 为 了 只 读 入 header， 我 们 可 以 使 用 下 面 这 段 代码 。 
# 处 理 header 
while (Sline = <>) { 
if ($line =~ m/*\s*$/) { 
last; # 停止 while MAA MAH, Bb MK 


} 
.. .处 理 header 信息 ... 


} 
. .. 处理 邮 件 内 的 其 他 信息 ... 
我 们 用 “和 \s 火 $ 来 检查 表示 邮件 header 结 束 的 空 行 。 这 个 正则 表达 
式 检 查 的 是 ， 当 前 的 文本 行 是 否 有 一 个 行 开头 (其 实 每 一 行 都 有 ， 由 
脱 字 符 匹 配 ) ， 然 后 跟着 任意 数目 的 空白 字符 (尽管 我 们 并 不 期 望 有 
任何 空白 字符 ) ， 然 后 字符 串 结 束 〈 注 3) 。 关 键 词 last 会 跳出 while 循 
环 ， 停 止 处 理 header ° 
所 以 ， 在 循环 内 部 ， 在 空 行 检测 之 后 ， 我 们 能 够 按照 自己 的 想法 
来 处 理 header 的 每 一 行 。 在 本 例 中 ， 我 们 希望 提取 信息 ， 例 如 邮件 的 


主题 和 时 间 。 
要 提取 主题 ， 我 们 可 以 使 用 一 个 常见 的 技巧 : 
if ($line =~ m/*Subject: (.*)/i) { 
Ssubject = $1; 
} 

这 上 段 代码 尝试 匹配 一 个 以 ‘Subject: 开头， 但 不 区 分 ie oe 
写 的 字符 串 。 如 果 能 够 匹配 ， 后 面 的 . 关 ， 匹配 这 一 行 的 其 他 部 分 。 因 
为 “. 夫 | 在 括号 中 ， 所 以 之 后 我 们 能 用 $1 来 访问 邮件 的 主题 。 在 这 个 
例子 中 ， 我 们 希望 把 它 保存 到 变量 $subject 中 。 AFAR IE MW FETA ZU 
无 法 匹配 这 个 字符 串 〈 大 多 数 情况 下 都 不 能 ) ， 就 是 NEARE 
果 为 false，$subject 变 量 没 有 变化 。 


KF! WBS 


“| 通常 用 来 表示 “一 组 任何 字符 ”(a bunch of anything), AA gn nancy i 
i (在 某 些 工具 中 ， 不 包括 换行 符 ) ， 而 星 号 表示 可 以 为 任意 数目 ， 但 并 非 必须 ， 


可 能 很 有 用 。 

不 过 ， 如 果 把 ,如 作为 整个 正则 表达 式 的 一 部 分 ， 而 用 户 又 不 真正 了 解 其 中 的 原理 ， 
就 可 能 陷入 某 些 隐藏 的 “陷阱 。 我 们 已 经 看 到 过 一 个 例子 (726), HAER 4 章 深 
入 讨论 这 个 话题 的 时 候 见 到 更 多 的 例子 (7164), 


我 们 可 以 用 同样 的 办 法 来 处 理 Date 和 Reply-To 字 上 段 : 
if ($line =~ m/*Date: (.*)/i) { 
Sdate = $1; 


if ($line =~ m/*Reply-To: (.*)/i) { 
Sreply address = $1; 
} 
From: 所 在 的 行 稍微 麻烦 一 点 。 首 先 ， 我 们 需要 找到 
以 ‘From: :开头 的 行 ， 而 不 是 以 From… 开 头 的 第 一 行 。 我 们 需要 的 
是 : 
From:elvis@tabloid.org (The King) 


它 包 含 了 邮件 的 发 送 地 址 ， 发 送 者 的 姓名 在 括号 内 ， 我 们 要 提取 
的 是 姓名 (译注 1) 。 

我 们 用 '^From: : (\S+) ， 来 提取 发 送 地 址 。 你 可 能 猜 到 了 ， 
Ns, 匹配 的 是 所 有 的 非 空白 字符 (49) ， 所 以 \s+, 匹配 第 一 个 空 
白 之 前 的 文本 (或 者 目标 文本 末尾 之 前 的 所 有 字符 ) 。 在 本 例 中 ， 就 
是 邮件 的 发 送 地 址 。 匹 配 之 后 ， 我 们 希望 匹配 括号 内 的 文字 。 显 然 ， 
此 处 也 需要 匹配 括号 本 身 。 我 们 用 GMN | 来 匹配 ， 转 义 之 后 的 
括号 不 再 具有 特殊 的 含义 。 在 括号 内 ， 我 们 希望 匹配 任何 字符 一 除 
了 括号 之 外 的 任何 字符 ， 所 以 采用 [A O Jx] oE, FRERE 
符 不 同 于 正则 表达 式 的 “普通 ”元 字符 ， 在 字符 组 内 部 ， 括 号 不 再 具有 
特殊 含义 ， 因 此 也 不 需要 转 义 。 

综合 起 来 ， 我 们 得 到 : 

[AFrom:-(\st+)\((IA01*)\), 

其 中 的 括号 有 点 多 ， 初 看 起 来 不 太 好 懂 ， 图 2-4 解 释 得 更 清楚 : 


字符 类 内 部 的 字符 ， 括 号 没有 特殊 谷 义 
普通 括号 字符 


De ear ee 


“Prom: (\8+) \(((*()]*)\) 


保存 到 $1 保存 到 $2 


图 2-4: mE Ss, $141$2 
如 果 图 2-4 的 正则 表达 式 能 够 匹配 ， 我 们 可 以 通过 $2 得 到 发 送 痢 的 
姓名 ， 从 $1 得 到 可 能 的 回复 地 址 。 
if ($line =~ m/*From: (\s+) \(([^()]*)\)/i) 1 
Sreply address = $1; 
$from name = $2; 


} 


并 韭 所 有 的 E-mail 信息 都 包含 Reply-To 字 段 ， 所 以 我 们 把 $1 暂 定 为 
回复 地 址 。 如 果 之 后 出 现 了 $Reply-ITo 字 段 ， 我 们 会 重 设 
$reply_address。 综 合 起 来 就 得 到 : 

while ($line = < >) 
{ 
if ($line =~ m/^\s*$/ ) { # 如果 存在 空 行 
last; # 就 立即 结束 while 循环 


if ($line =~ m/*Subject: (.*)/i) { 
Ssubject = $1; 


if ($line =~ m/*Date: (.*)/i) { 
$date = $1; 


if ($line =~ m/*Reply-To: (\st)/i) { 
S$reply address = $1; 


if ($line =~ m/*From: (\s+) \(([*()]*)\)/i) { 
$reply address = $1; 
Sfrom_name = $2; 
} 
} 

这 段 程序 检查 header 的 每 一 行 ， 如 果 某 个 正则 表达 式 能 够 匹配 ， 则 
设置 相应 的 变量 。header 的 许多 行 无 法 由 这 些 正则 表达 式 匹 配 ， 所 以 会 
被 忽略 。 

while 循 环 结束 之 后 ， 我 们 就 能 够 生成 回复 邮件 的 header 了 QE 
4) : 
print “To: $reply address ($from_name) \n”; 
print “From: jfriedl\@regex.info (Jeffrey Friedl) \n”; 
print “Subject: Re: Ssubject\n”; 
print “\n” ; # blank line to separate the header from message body. 


请 注意 ， 我 们 在 主题 之 前 加 上 了 Re: ， 表 示 这 是 一 封 回 复 邮 件 。 
最 后 ， 在 header 之 后 ， 我 们 列 出 原始 邮件 的 内 容 : 
print "On $date $from_name wrote:\n"; 


对 于 其 他 的 输入 信息 《也 就 是 原始 邮件 的 正文 部 分 |) ， 我 们 在 每 
一 行 之 前 添加 > 提示 符 : 


while ($line = < >) { 
print “|> $line”; 
} 

有 意思 的 是 ， 这 上 段 程序 也 可 以 用 另 一 种 方法 ， 使 用 正则 表达 式 来 

加 入 引用 提示 符 : 
$line =~ s/*/|> /; 
print Sline; 

这 条 替换 命令 寻找 ^j ， 在 每 个 字符 串 的 起 始 位 置 匹配 。 这 条 替 
换 命 令 把 字符 串 开 头 那 个 “不 存在 的 字符 关 替 换 ? 为 4>…”， 其 实 并 没有 
替换 任何 字符 ， 只 是 在 字符 串 的 开头 加 入 和 |>>*。 在 本 例 中 这 样 做 有 点 
滥用 的 嫌疑 了 ， 但 是 我 们 将 在 本 章 中 看 到 类 似 (但 更 有 用 ) 的 例子 。 

真实 世界 的 问题 ， 真 实 世 界 的 解法 

既然 探 出 了 一 个 真实 世界 的 例子 ， 束 应 该 指出 这 个 解法 在 真实 世 
界 中 的 缺憾 。 我 已 经 说 过 ， 这 些 例子 的 目的 在 于 展示 正则 表达 式 的 使 
用 方法 ， 而 Perl 程序 不 过 是 展示 的 手段 。 我 使 用 的 Perl 程序 并 不 一 定 
使 用 了 最 有 效 或 者 最 好 的 解法 ， 但 是 ， 我 希望 它 能 说 明正 则 表达 式 的 
用 法 。 

同样 ， 真 实 世 界 的 邮件 信息 比 这 个 人 简单 问题 中 的 邮件 信息 复杂 很 
多 。From: 这 一 行 就 可 能 有 许多 种 格式 ， 而 我 们 的 程序 只 能 处 理 一 
种 。 如 有 果真 正 的 Fr om: 这 一 行 无 法 匹配 我 们 的 模式 ， 则 $from_name 变 
量 就 不 会 设置 ， 使 用 时 保持 在 未 定义 的 状态 (也 就 是 “没有 值 * 的 值 的 
一 种 ) 。 理 想 的 解决 办 法 是 修改 这 个 正则 表达 式 ， 让 它 能 够 处 理 各 种 
不 同 的 邮件 地 址 /姓名 格式 ， 不 过 ， 作 为 第 一 步 ， 在 检查 原始 邮件 之 后 
(生成 回复 模板 之 前 ) ， 我 们 可 以 这 样 : 

if ( not defined(Sreply address) 

or not defined ($from_name) 


( 
or not defined ($subject) 
or not defined(S$date) ) 


{ 


die “couldn't glean the required information!”; 


} 


Perl 的 defined 函 数 检查 一 个 变量 在 否 设置 了 值 ， 而 die 函 效用 来 发 出 
错误 信息 ， 退 出 程序 。 


另 一 点 需要 考虑 的 是 ， 程 序 假 设 From: 这 一 行 出 现在 Reply-To: 
之 前 。 如 果 From: 出 现在 之 后 ， 就 会 覆盖 从 Reply-To 取 得 的 
$reply_address ° 

“真正 的 "真实 世界 

发 送 电子 邮件 的 程序 有 许多 类 ， 每 类 程序 对 标准 的 理解 都 不 一 
样 ， 所 以 处 理 电子 邮件 并 不 是 件 简单 的 事情 。 我 曾经 想 用 Pascal 程序 
来 处 理 电 子 邮 件 ， 但 我 发 现 ， 如 果 没 有 正则 表达 式 ， 处 理 起 来 极其 困 
难 ， 困 难 到 我 决定 先 用 Pascal 写 一 个 类 似 Perl 的 正则 表达 式 包 ， 再 来 做 
其 他 事情 。 进 入 没有 正则 表达 式 的 世界 之 后 才 发 现 ， 自 己 已 经 习惯 正 
则 表达 式 的 功能 和 便捷 了 ， 而 我 显然 不 希望 在 没有 正则 表达 式 的 世界 
RAAS 


用 环视 功能 为 数值 添加 喜 号 


Adding Commas to a Number with Lookaround 

大 的 数值 ， 如 果 在 其 间 加 入 过 号 ， 会 更 容易 看 懂 。 下 面 的 程序 : 

print "The US population is $pop\n"; 

可 能 输出 “The US population is 298444215”， 但 对 大 多 数 说 英语 的 
人 来 说 ,“298，444，215” 看 起 来 更 加 上 自然。 用 正则 表达 式 该 如 何 做 
呢 ? 

动脑 子 想 想 这 个 问题 ， 我 们 应 该 从 这 个 数 的 右边 开始 ， 每 次 数 3 
位 数字 ， 如 果 左 边 还 有 数字 的 话 ， 束 加 入 一 个 加 号。 如 果 我 们 能 把 这 
种 思路 直接 用 到 正则 表达 式 中 当然 很 好 ， 可 惜 正则 表达 式 一 般 都 是 从 
左 问 右 工作 的 。 不 过 梳理 一 下 思路 就 会 发 现 ， 巡 号 应 该 加 在 “左边 有 数 
字 ， 右 边 数字 的 个 数 正 好 是 3 的 倍数 的 位 置 *， 这 样 ， 使 用 一 组 相对 较 
新 的 正则 表达 式 特 性 一 一 它们 统称 为 “环视 (lookaround) ”一 一 轻松 地 
解决 这 个 问题 。 

环视 结构 不 匹配 任何 字符 ， 只 匹配 文本 中 的 特定 位 置 ， 这 一 点 与 
单词 分 界 符 \b，、 锚 点 ^， A'S, 相似 。 但 是 ， 环 视 比 它们 更 加 通 
用 o 


一 种 类 型 的 环视 叫 “ 顺 序 环视 (lookahead) ”， 作 为 表达 式 的 一 部 
分 ， 顺 序 环视 顺序 (从 左 至 右 ) 查看 文本 ， 党 试 匹 配子 表达 式 ， 如 果 


能 够 匹配 ， 就 返回 匹配 成 功 信 息 。 肯 定型 顺序 环视 (positive 
lookahread) 用 特殊 的 序列 (2 =...) ， 来 表示 ， 例 如 和 (? =d) ，， 
它 表 示 如 果 当 前 位 置 右 边 的 字符 是 数字 则 匹配 成 功 。 男 一 种 环视 称 为 
逆序 环视 ， 它 逆序 MERE) 查看 文本 。 它 用 特殊 的 序列 ' (? < 
=...) ， 表示， 例 如 5 (? <=\d) ，， 如 果 当 前 位 置 的 左边 有 一 位 数 
字 ， 则 匹配 成 功 (也 就 是 说 ， 紧 跟 在 数字 后 面 的 位 置 ) 。 
环视 不 会 “占用 ”字符 
在 理解 顺序 环视 和 其 他 环视 功能 时 需要 特别 注意 一 点 ， 即 在 检查 
子 表达 式 能 否 匹 配 的 过 程 中 ， 它 们 本 号 不 会 “占用 ”任何 文本 。 这 可 能 
有 点 难 懂 ， 所 以 我 准备 了 下 面 的 例子 。 正 则 表达 式 Jeffrey| 匹配 : 
.by Jeffrey Friedl. 
但 同样 的 正则 表达 式 ， 如 果 使 用 顺序 环视 功能 ， 即 ' (? 
=Jeffrey) ，， 则 匹配 标记 的 位 置 : 
“by Jeffrey Friedl. 
顺序 环视 会 检查 子 表达 式 能 否 匹 配 ， 但 它 只 寻找 能 够 匹配 的 位 
置 ， 而 不 会 真正 “占用 ”这 些 字 符 。 不 过 ， 把 顺序 环视 和 真正 匹配 字符 
的 部 分 一 一例 如“ Jeff， 结合 起 来 ， 我 们 能 得 到 比 单 纯 的 Jeff | 更 
精确 的 结果 。 结 合 之 后 的 正则 表达 式 是 ' (? =Jeffrey) Jeff, ， 下 一 页 
的 图 说 明 ， 它 只 能 匹配 “Jeffrey” 这 个 单词 中 的 “Jeff”。 它 能 够 匹配 : 


.by Jeffrey Friedl. 


在 此 处 它 的 匹配 和 单纯 的 Jeff, 一样， 但 是 下 面 的 情况 不 会 匹 
Ac: 

...by Thomas Jefferson 

[Jeff | 自己 能 够 匹配 这 一 行 ， 但 是 因为 不 存在 ” (? =Jeffrey) | 
能 够 匹配 的 位 置 ， 整 个 表达 式 束 无 法 匹配 。 现 在 环视 的 好 处 还 看 得 不 
是 很 明显 ， 但 是 请 不 用 担心 ， 现 在 我 们 只 需要 关心 顺序 环视 的 原理 
我 们 很 快 会 遇 到 能 够 充分 展现 其 价值 的 例子 ，。 
受 此 启发 ， 你 或 许 会 发 现 (? =Jeffrey) Jeff, 和 “Jeff (? 
=rey) | 是 等 价 的 〈 能 够 发 现 这 一 点 的 读者 很 了 不 起 ) 。 它 们 都 能 


配 “Jeffrey” 这 个 单词 中 的 “Jeff”。 

我 们 还 需要 认识 到 ， 它 们 结合 的 顺序 非常 重要 。 "Jeff (? 
=Jeffrey) ， 不 会 匹配 上 面 的 任何 一 个 例子 ， 而 只 会 匹配 后 面 紧 跟 
有 “Jeffrey” 的 ]“Jeff”。 


真正 匹配 的 字符 


n Friedl" 
amanar OY Reet ried 


测试 顺 序 环视 时 匹配 的 文本 SS : 


os: | (9 =Jeffrey) Jeff, 的 匹配 

还 有 一 点 很 重要 ， 即 环视 结构 使 用 特殊 的 表示 法 。 就 像 45 页 介绍 
的 非 捕 获 型 括号 ” (? : ...) ”一 样 ， 它 们 使 用 特殊 的 字符 序列 作为 自 
己 的 “ 开 括 号 >”。 这 样 的 * 开 括号 ”序列 有 许多 种 ， 但 它们 都 以 两 个 字 
RE (2 ”开头 。 问 号 之 后 的 字符 用 来 标志 特殊 的 功能 。 我 们 曾经 看 到 
过 “分 组 但 不 捕获 ”的 “(? : ...) ”、 顺序 环视 的 ″ (? =...) ”， 以 及 逆 
序 环视 的 ″ (? <=...) ”结构 ， 下 面 还 会 看 到 更 多 。 

再 来 几 个 顺序 环视 的 例子 

我 们 马上 就 要 在 数字 间 揪 入 逗号 了 ， 不 过 现在 先 多 看 几 个 环视 的 
例子 。 首 先 我 们 要 把 所 有 格 “Jeffs” 蔡 换 为 “Jeff*s”。 不 使 用 环视 也 能 很 容 
易 做 到 这 一 点 ， 即 s/Jeffs/Jeff's/g ( 记 住 ，/g 表示 “全 局 替换 ”,， 上 51) 。 
更 好 的 办 法 是 添加 单词 分 界 符 销 点 : sAbJeffs\b/Jeff's/g ° 

我 们 也 可 以 使 用 更 复杂 的 表达 式 ， 例 如 sAb (Jeff) (s) 
\b/$1$2/g， 但 是 这 样 简单 的 任务 似乎 不 值得 这 么 麻烦 ， 所 以 我 们 暂时 
仍然 使 用 sAbJeffs\b/Jeff's/g。 现 在 来 看 男 一 个 正则 表达 式 

s/\bJeff(?=s\b)/Jeff'/g 


两 者 唯一 的 区 别 在 于 ， 最 后 的 “sb 现在 位 于 顺序 环视 结构 。 下 一 
页 的 图 2-6 说 明了 这 个 正则 表达 式 的 匹配 情况 。 正 则 表达 式 变化 之 后 ， 
replacement 字 符 串 中 的 ‘s’ 也 相应 地 被 删 去 了 。 

Jeff, 匹配 之 后 ， 接 下 来 党 试 的 就 是 顺序 环视 。 只 有 当 sb | 在 
此 位 置 能 够 匹配 时 (也 就 是 ‘Jeff* 之 后 举 跟 一 a ‘和 一 个 单词 分 DIIT) 
整个 表达 式 才 能 匹配 成 功 。 但 是 ， 因 为 sb| 只 是 顺序 环视 子 表达 式 的 

一 部 分 ， 所 以 它 匹 配 的 's: 不 属于 最 终 的 匹配 文本 。 记 住 ， Jeff , 确定 

匹配 文本 ， 而 顺序 环视 只 是 “选择 ”一 个 位 置 。 在 此 处 使 用 顺序 环视 的 
唯一 好 处 在 于 ， 它 保证 表达 式 不 会 匹配 任意 的 情况 。 或 者 从 另 一 个 角 
度 来 说 就 是 ， 它 容许 我 们 在 只 匹配 eff, 之 前 检查 整个 Jeffs  。 


真正 匹配 的 字符 一 
"see Tos book" 


— 测试 顺序 环视 时 匹配 的 文本 
顺序 环视 的 结果 


图 2-6: TbJeff (? =s\b) | 的 匹配 

为 什么 不 在 最 终 匹 配 的 结果 中 包含 顺序 环视 匹配 过 的 文本 呢 ? 通 
常 ， 这 是 因为 我 们 希望 在 表达 式 的 后 面部 分 ， 或 者 在 稍 后 应 用 正则 表 
达 式 时 ， 再 次 检测 这 段 文本 。 过 几 页 ， 当 我 们 真正 开始 解决 在 数值 中 
加 入 吝 号 的 问题 时 ， 就 会 明白 它 的 作用 。 但 是 在 上 面 的 例子 中 ， 使 用 
顺序 环视 的 原因 在 于 : 我 们 希望 检查 整个 'Jeffs, ， 因 为 这 是 我 们 希望 
加 入 撤 和 号 的 地 方 ， 但 是 如 果 匹 配 的 只 是 ‘Jeff?， 束 能 减 小 replacement 字 
从 串 的 长 度 。 因 为 ‘不 再 是 最 终 匹 配 结果 的 一 部 分 ， 也 就 不 再 是 
replacement] 一 部 分 分 ， 所 以 我 们 可 以 从 replacement 字 符 串 中 去 掉 它 。 

所 以 ， 尽 管 这 丙种 办 法 所 用 的 正则 表达 式 和 replacement 字 符 串 各 不 
相同 ， 它 们 的 结 采 却 是 一 样 的 。 现 在 看 起 来 ， 这 些 应 用 正则 表达 式 的 


技巧 都 有 些 花 染 子 的 味道 ， 但 是 我 这 么 做 是 有 日 的 的 ， 请 继续 往 下 
看 。 

比较 上 面 的 两 个 例子 ， 最 后 的 's, ME (main) ”表达 式 中 移 到 了 
顺序 环视 部 分 中 。 如 果 我 们 把 开头 的 'Jeff| 照样 搬 到 逆序 环视 中 呢 ? 
结果 是 ' (2 <=\bJeff) (? =s\b) | ， 它 的 意思 是 ， 找 到 这 样 一 个 位 
置 ， 它 紧 接 在 Jeff’? 之 后 ， 在 's' 之 前 。 这 正好 就 是 我 们 希望 插入 撤 号 的 
地 方 。 所 以 ， 我 们 这 样 蔡 换 : 

s/(? < =\bJeff)(2=s\b)//g 

这 个 表达 式 很 有 意思 ， 它 实际 上 并 没有 匹配 任何 字符 ， 只 是 匹配 
了 我 们 希望 插入 撤 号 的 位 置 。 在 这 种 情况 下 ， 我 们 并 没有 “ 珍 换 ”任何 
字符 ， 而 只 是 插入 了 一 个 撒 号 。 图 2-7 作 了 说 明 。 在 几 页 以 前 ， 我 们 看 
到 过 这 样 的 替换 ， 使 用 SVM| > ETEA”? e 


真正 匹配 的 字符 一 
"see Jeffs book" 


师 序 环视 的 结果 
j S 


(?<=\b Jef£)|(?=s\b) 
Sad 


2-7: | (? <=\bJeff) (2 =sb) | 的 匹配 
如 果 我 们 把 两 个 环视 结构 调换 位 置 ， 这 个 正则 表达 式 的 功能 会 改 
变 吗 ? 也 就 是 说 ，s/ (? =s\b) (? <=\bJeff) mg 的 结果 如 何 ? win 
到 下 一 页 查看 答案 。 
“Jeffs” 匹 配 总 结 表 2-1 总 结 了 我 们 见 过 的 把 Jeffs 蔡 换 为 Jeff's 的 几 种 
办 法 。 


表 2-1: 解决 “Jeffs” 问 题 的 几 种 办 法 


解决 方案 


s/\bJeffs\b/Jeff’s/g 


s/\b(Jeff) (s) \b/$1'$2/g 


s/\bJeff(?=s\b) /Jeff’ /g 


s/(?<=\bJeff) (?=s\b) /'/g 


s/(2?=s\b) (?<=\bJeff) /'/g 


评 价 


最 简单 ， 最 直接 ， 效 率 高 ， 解决 此 类 问题 最 容易 想 
到 的 办 法 ， 未 使 用 环视 ， 正 则 表达 式 “占用 ”整个 
‘Jeffs’, 

Ri T LER, AAR, EMAKASAR 
个 ‘Jeffs’, 

并 没有 占用 “s ,除了 展示 顺序 环视 之 外 ， 没 什么 
实用 价值， 

并 没有 “占用 ”任何 文本 ， 同 时 使 用 顺序 环视 和 这 
序 环 视 匹配 需要 的 位 置 ， 即 据 号 插入 的 位 置 ， 非 常 
适 于 讲解 环视 ， 

与 上 一 个 表达 式 完 全 相同 ， 只 是 类 倒 了 两 个 环视 结 
构 ， 因 为 它 并 没有 占用 任何 字符 ， 所 以 变换 顺序 并 
没有 影响 ， 


回 到 “在 数值 中 加 入 如 号 ”之 前 ， 我 先 提 一 个 关于 这 些 表达 式 的 问 
题 。 如 果 我 硕 望 找到 不 区 分 大 小 写 的 “Jeffs"， 在 蔡 换 之 后 仍然 保持 原来 
的 大 小 写 ， 使 用 /i 能 实现 这 个 目标 吗 ? 


测验 答案 


o 63 页 小 测验 的 答案 
s/(?=s\b) (?<=\bJeff)/'/g 的 结果 是 什么 ? 


在 本 例 中 ，(?=s\b) /和 (2<=\bJeff) | 的 先后 顺序 是 无 关 紧 要 的 ， 无 论 是 “ 先 检查 左 
边 ， 再 检查 右边 ”还 是 相反 ， 关 键 是 ， 在 同一 个 位 置 两 边 的 检测 必须 都 能 成 功 ， 整 个 
et Hh, ie, APRS ‘Thoma s'Jeff erson’ ® '(2=5\b) ife (?<=\bJeff) 
MEER (在 标记 的 两 个 位 置 ) ， 但 是 这 两 个 位 置 并 不 重合 ， 所 以 这 两 个 环视 的 结合 体 
不 能 成 功 匹 配 。 

“两 者 的 结合 ”(combanation of the two) 虽然 有 些 模 糊 ， 但 用 来 描述 这 个 问题 并 没有 
问题 ， 因 为 在 此 处 它 的 意义 很 明显 。 不 过 ， 有 时 候 ， 正 则 引 学 应 用 表达 式 的 方式 可 能 
并 不 这 么 明显 ， 因 为 引 学 的 工作 原理 对 正则 表达 式 的 实际 意义 有 直接 的 影响 ， 详 细 讲 
解 见 第 4 章 ， 


提示 :至少 有 两 个 表达 式 无 法 做 到 这 一 点 。 四 请 思考 这 个 问题 ， 答 
案 见 下 页 。 

回 到 逗号 的 例子 .… 

你 可 能 已 经 意识 到 了 “Jeffs” 的 例子 和 插入 去 号 的 例子 之 间 存在 某 种 
联系 ， 因 为 它们 都 需要 通过 正则 表达 式 寻 找到 某 个 位 置 ， 然 后 插入 文 
本 。 

我 们 已 经 知道 我 们 希望 插入 去 号 的 位 置 必须 满足 “左边 有 数字 ， 厂 
边 数字 的 个 数 正好 是 3 的 倍数 ”。 第 二 个 要 求 用 逆序 环视 很 容易 解决 
PURRA CNT RRR ELE WER, RRE! C < 
=\d) ,° 

现在 来 看 “右边 数字 的 个 数 正好 是 3 的 倍数 ”。3 位 数字 当然 可 以 表 
示 为 Nad, ， 我 们 可 以 用 (...) +, 来 表示 (3 的 ) “ERR, BOR 
加 一 个 "$, 来 确保 这 些 数字 后 面 不 存在 其 他 字符 (保证 "正好 >) -I 
立 的 (\d\d\d) +$; 匹配 从 字符 串 末 尾 向 前 数 的 3x 位 数字 ， 但 是 加 入 
I (? =...) ， 的 环视 结构 之 后 ， 它 就 能 匹配 “右边 数字 的 个 数 正好 是 3 


AS EY, PA 123,456,789 中 的 标记 位 置 。 实 际 上 并 不 是 所 
有 这 些 位 置 都 符合 要 求 一 一 我 们 不 希望 在 第 一 个 数字 之 前 加 入 如 号 
一 一 所 以 我 们 添加 ”(? <=\d) ， 来 限定 匹配 的 位 置 。 

代码 段 如 下 : 

Spop =~ s/(?<=\d) (?=(\d\d\d)+$)/,/g; 
print “The US population is $pop\n”; 

确实 输出 了 我 们 期 望 的 “The US population is 298, 444, 215” ° 7 
过 ， 有 点 奇怪 的 是 ，'\d\d\d 两 边 的 括号 是 捕获 型 括号 。 但 是 在 这 里 ， 
我 们 只 用 它 来 分 组 ， 把 加 号 作用 于 3 位 数字 ， 所 以 不 需要 把 它们 捕获 
的 文本 保存 到 $1 中 。 

我 可 以 使 用 第 45 页 补充 内 容 介 绍 鸭 非 捕获 型 括 与 : 
(2: ..) ,, BE" ( <=\d) (P = (? : #0) » °K 
做 的 好 处 在 于 ， 见 到 这 个 正则 表达 式 的 人 不 会 担心 与 捕获 型 括号 天 联 
的 $1 是 否 会 被 用 到 ; 而 且 它 的 效率 更 高 ， 因 为 引 敬 不 需要 记忆 捕获 的 
MA co HAM, eT (...) | 也 有 点 难以 看 懂 ， 更 不 用 说 
' (? ...) ，, 了， 所 以 我 在 这 里 选择 更 清晰 的 表达 方式 。 构 建 正则 表达 
式 时 ， 经 常 需要 权衡 这 两 个 因素 。 从 我 个 人 来 说 ， 我 愿意 在 适用 的 所 
有 地 方 使 用 [1 (? : ...) ，， 但 是 在 讲解 其 他 知识 时 选择 更 清晰 的 表达 
方式 (也 是 本 书 中 的 常见 情况 ) 。 

单词 分 界 符 和 否定 环视 

现在 假设 ， 我 们 希望 把 这 个 插入 喜 号 的 正则 表达 式 应 用 到 很 长 的 
字符 串 中 ， 例 如 : 


$text = “The population of 298444215 is growing”; 


$text =~ s/(?<=\d) (?=(\d\d\d) +$) /,/g; 
print “$text\n”; 
很 显然 程序 没有 结果 ， 因 为 '$ | 要 求 字符 串 以 3 的 倍数 位 数字 结 
尾 。 我 们 不 能 只 去 挥 这 里 的 1$ | ， 因 为 这 样 会 从 左边 第 一 位 数字 之 


ja, Ad eo aS 
9, 8, 4, 4, 4, 215.. 

可 能 初 看 起 来 这 问题 有 些 束 手 ， 但 我 们 可 以 用 单词 分 界 符 Vb, 来 
替换 $ 。 尽 管 我 们 处 理 的 只 是 数字 ，Perl 的 “单词 "概念 也 能 够 解决 这 
个 问题 。 就 像 Ww, (49) 一 样 ，Pedq 和 其 他 语言 都 把 数字 、 字 母 和 
下 夯 线 当 作 单 词 的 一 部 分 。 结 果 ， 单 词 分 界 符 的 意思 就 是 ， 在 此 位 置 
的 一 侧 是 单词 (例如 数字 ) ， 男 一 侧 不 是 (例如 行 的 末尾 ， 或 者 数字 
后 面 的 空格 ) 。 

这 个 “一 侧 如 此 这 般 ， 另 一 侧 如 此 那 般 * 听 起 来 很 耳 熟 ， 对 吗 ? 因 
eh 区 别 之 一 在 于 ， 有 一 侧 必须 使 用 
否定 的 匹配 。 这 样 看 来 ， 迄 今 为 止 我 们 用 到 的 顺序 环视 和 逆序 环视 应 
该 被 称 作 肯定 顺序 环视 ie he lookahead) 和 肯定 逆序 环视 (positive 
lookbehind) 。 因 为 它们 成 功 的 条 件 是 子 表 达 式 在 这 些 位 置 能 够 匹配 。 
表 2-2 告 诉 我 们 ， 正 则 表达 式 还 提供 了 相对 应 的 否定 顺序 环视 和 否定 逆 
序 环视 。 从 名 字 就 能 看 出 ， 它 们 成 功 的 条 件 是 子 表达 式 无 法 匹配 。 


测验 答案 
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第 64 页 的 测验 答案 

在 使 用 / 空 时 ， 哪 些 办 法 会 保留 原来 文本 的 大 小 写 ? 

为 了 保留 大 小 写 ， 有 要么 仅仅 替换 被 占用 的 字符 (而 不 是 任何 情况 下 都 插入 “Jeff's )， 
要 么 不 占用 任何 字符 。 表 2-1 中 的 第 二 个 表达 式 采 取 了 第 一 种 思路 ,匹配 占用 的 字符 ， 
用 $1 和 $2 把 它们 替换 回来 ,后 两 种 解法 选择 了 “不 占用 任何 字符 ”的 思路 ,因为 它们 
不 占用 任何 字符 ， 所 以 不 需要 保留 任何 文本 ， 

ci igh cecilia in 如 果 使 用 /i， Laitinen 
的 大 小 写 信 息 ， 它 们 分 别 把 JEFFS 错误 地 替换 为 Jeff's 和 Jeff's, 


表 2-2: 四 种 类 型 的 环视 


匹配 成 功 的 条 件 … 
子 表达 式 能 够 匹配 左 侧 文 本 
子 表达 式 不 能 匹配 左 侧 文 本 
子 表 达 式 能 够 匹配 右 侧 文本 
子 表 达 式 不 能 匹配 右 侧 文本 


正则 表达 式 


肯定 逆序 环视 
否定 逆序 环视 
肯定 顺序 环视 
否定 顺序 环视 

所 以 ， 如 果 单 词 分 界 符 的 意思 是 : ME w 而 另 一 侧 不 是 
wj ， 我 们 就 能 用 ”(? <!w) (? aw) | 来 表示 单词 起 始 分 界 
符 , FT (? <=\w) (? ! \w) | 表示 单词 结束 分 界 符 。 把 两 者 结合 
HER, E (2 <!\w) (? sw) | (2 <=\w) (? ! \w) ) | 就 等 价 
于 由。 在 实践 中 ， 如 果 语 言 本 身 支 持 b (\b 更 直接 ， 效 率 也 更 高 ) ， 
这 样 做 有 点 多 此 一 举 ， 但 是 可 能 的 确 有 地 方 需要 用 到 这 两 个 单独 的 多 
ETA (134) 

对 我 们 的 逗号 插入 问题 来 说 ， 我 们 真正 需要 的 是 '(? ! \d) | 来 
标记 3 位 数字 的 起 始 计数 位 置 。 我 们 用 它 来 取代 “\b | 或 者 $， ， 得 到 : 
$text =~ s/(?<=\d) (2?=(\d\d\d)+(?!\d))/,/g;3 


这 个 表达 式 在 处 理 类 似 “...tone of 12345Hz” 的 文本 时 效果 很 好 ; 不 
幸 的 是 ， 它 同样 会 匹配 “...the 1970s...” 中 的 年 份 。 实 际 上 ， 我 们 根本 不 
希望 这 里 的 正则 表达 式 能 够 匹配 *...in1970...”。 所 以 ， 我 们 必须 知道 期 
望 用 正则 表达 式 处 理 的 文本 ， 以 及 开发 的 程序 适合 解决 什么 样 的 问题 
(如 果 数 据 包含 年 份 信 息 ， 这 个 正则 表达 式 可 能 就 不 适合 ) 

在 关于 单词 分 界 符 和 不 希望 匹配 的 字符 的 讨论 中 ， 我 们 使 用 了 否 
定 顺 序 环视 ，' (2 liw) | 或 1 (? lid) ，。 你 可 能 还 记得 第 49 页 
出 现 的 表示 * 非 数字 ”的 字符 \D，， 认 为 它 可 以 取代 ' (2 ! \d) |。 这 
FTE o WE, ND 的 意思 是 ,“ 某 个 不 是 数字 的 字符 ”，“ 某 个 字 
符 ” 是 必须 的 ， 只 是 它 不 能 为 数字 。 如 果 在 搜索 的 文本 中 ， 数 字 之 后 没 
AFR, ND 是 无 法 匹配 的 (在 第 12 页 的 补充 内 容 中 我 们 见 到 过 类 
似 的 情况 ) 

不 通过 逆序 环视 添加 过 号 


逆序 环视 和 顺序 环视 一 样 ， 所 获 的 支持 十 分 有 限 (使 用 也 不 广 
iZ) 。 顺 序 环视 比 逆 序 环视 早出 现 几 年 ， 尽 管 Perl 现在 两 者 都 支持 ， 
许多 其 他 语言 却 不 是 这 样 。 所 以 ， 想 一 想 不 用 逆序 环视 来 解决 添加 过 
号 的 问题 可 能 更 有 意义 。 来 看 下 面 的 表达 式 : 

$text =~ s/(\d) (?=(\d\d\d) +(?!\d) / $1, /g; 


它 与 之 前 的 表达 式 的 差别 在 于 ， 开 头 的 nd 所 处 的 肯定 逆序 环视 
变 成 了 捕获 型 括号 ，replacement 字 符 串 则 在 逗号 之 前 加 入 了 相应 的 
$1° 

如 果 我 们 连 顺序 环视 也 不 用 呢 ? 我们 可 以 用 “\b 取代”(? | 
\d) ，， 但 这 个 消除 逆序 环视 的 技巧 是 否 对 剩 下 的 顺序 环视 有 效 呢 ? 也 
就 是 说 ， 下 面 的 办 法 可 行 吗 ? 

$text=~s/(\d)((\d\d\d)+\b)/$1,$2/g; 

请 翻 到 下 页 查看 答案 。 


Text-to-HITMEL 转换 


Text-to-HTML Conversion 


现在 我 们 写 一 个 把 Text 〈 纯 文本 ) 转换 为 HTML ( 超 文本 ) 的 小 
工具 ， 如 有 果 要 处 理 所 有 的 情况 ， 程 序 将 非常 难 写 ， 所 以 现在 我 们 只 写 
=F TARL o 

在 目前 我 们 看 过 的 所 有 例子 中 ， 作 为 正则 表达 式 应 用 对 象 的 变量 
都 只 包含 一 行文 本 。 对 这 个 例子 来 说 ， 把 我 们 需要 转换 的 所 有 文本 放 
在 同一 个 字符 串 中 比较 方便 。 在 Perl 中 ， 我 们 可 以 很 容易 地 这 样 做 : 

undef $/; # 进入 ”file-slurp” (文件 读 取 ) 模式 
$text = <>; # 读 入 命令 行 中 指定 的 第 一 个 文件 


测验 答案 


067 页 问题 的 答案 
$text =~ s/(\d) ((\d\d\d)+\b)/$1,$2/q; 能 够 在 数字 中 添加 过 号 吗 ? 


结果 并 非 我 们 的 期 望 ， 得 到 的 是 类 似 “281,421906” 的 字符 囊 ， 这 是 因为 '(\d\d\d)+ 
匹配 的 数字 属于 最 终 匹 配 文 本 ， 世 以 不 能 作为 “本 匹配 的 ”部 分 ， 供 /9 的 下 一 次 匹配 
ik KARA, 
一 次 选 代 完成 时 ， 下 一 次 的 选 代 会 从 上 一 次 匹配 的 终点 开始 尝试 。 我 们 项 望 的 是 ， 在 
桥 入 运 号 以 后 ， 还 能 如 综 续 检 查 这 个 数值 ， 以 决定 是 否 需要 再 栖 入 过 号 ， 但是， 在 这 
个 例子 中 ， 重 新 开始 的 起 点 是 整个 数值 的 末尾 ， 使 用 顺序 环视 的 意义 在 于 ， 检 查 某 个 
位 置 ， 但 检查 时 匹配 的 字符 并 不 算 在 (最 终 )“ 匹 配 的 字符 囊 ” 内 ， 
实际 上 ， 这 个 表达 式 仍 然 可 以 用 来 解决 这 个 问题 ， 但 正则 表达 式 必 须 由 箱 主 语言 反复 
调用 ， 例 如 通过 一 个 while 特 环 ， 每 次 检查 的 都 是 上 次 修改 后 的 字符 事 ， 每 次 替换 抬 
作 都 会 添加 一 个 过 号 (对 目标 字符 串 中 的 每 个 数值 都 是 如 此 ， 因 为 /g 的 存在 ) ， 下 面 
是 一 个 例子 ; 

while ( $text =~ s/(\d) ((\d\d\d)+\b)/$1,$2/g ) { 


E MST AY TATE THRE — ANA OE MS, FSR KM 
| 


如 果 我 们 的 样本 文件 包含 3 个 短 行 : 


This is a sample file. 
It has three lines. 
That's all 


变量 $text 的 内 容 就 是 : 

This is a sample file. It has three lines. That's all 
在 某 些 平台 上 ， 也 可 能 是 : 

This is a sample file.f& [M] It has three lines.& N That's all N 
这 十 因为 大 多 数 系统 采用 换行 符 作 为 一 行 的 终结 从， 而 某 些 系 统 

(主要 是 Windows) 使 用 回 车 /换行 的 结合 体 。 我 们 会 确保 这 个 简单 的 


工具 能 应 付 这 两 种 情况 。 
处 理 特殊 字符 
首先 我 们 需要 确保 原始 文本 中 的 ‘8&*、‘<? 和 “>’ 字 符 “ 不 会 出 错 ”， 
把 它们 转换 为 对 应 的 HTML 编 码 ， 分 别 是 ‘&amp”、‘&lt 和 '‘&gt*。 在 
HTML 中 这 些 字 符 有 特殊 的 含义 ， 编 码 不 正确 可 能 会 导致 显示 错误 。 我 
称 这 种 简单 的 转换 为 “为 HTML 而 加 工 (cooking the text for HTML) ” 
它 的 确 非常 简单 ; 
$text =~ s/&/é&amp;/g; # 保证 基本 的 HTML... 
$text =~ s/</&lt;/g; + .. FH &, <, and > ... 
$text =~ s/>/igt;/g; # .. 转换 后 不 出 锚 
alt, RIEA S/R PRN Bn ET ER 〈 如 果 不 
Hig, MASE RSE A) 。 首 先 转换 & 是 很 重要 的 ， 
Al Aik = 4 replacement FHWA ‘8c FFF ° 
分 隔 段落 
接 下 来 我 们 用 HTML tag 中 表示 分 段 的 <p> 来 标记 段落 。 识 别 段 落 
的 简单 办 法 丈 是 把 至 行 作为 段落 之 间 的 分 隔 。 搜 索 空 行 的 办 法 有 很 
多 ， 最 容易 想到 的 是 : 
$text=~s/A$/ < p > /g; 
它 可 以 匹配 “ 行 末 尾 紧 随行 开头 的 位 置 "。 确 实 ， 我 们 已 经 在 第 10 
页 看 到 ， 在 egrep 之 类 的 工具 中 这 样 行 得 通 ， 因 为 其 中 被 检索 的 文本 通 
党 只 包含 逻辑 上 的 一 行文 本 。 在 Perl 中 也 同样 有 效 ， 对 于 之 前 看 到 过 
的 E-mail 的 例子 ， 我 们 知道 每 一 个 字符 串 只 包含 一 个 逻辑 行 。 
但 是 ， 我 已 经 在 第 55 页 的 脚注 中 提 到 过 ， A A'S) 通常 匹配 的 
不 是 逻辑 行 的 开头 和 结尾 ， 而 是 整个 的 字符 串 的 开头 和 结束 位 置 ( 注 
5) 。 所 以 ， 既 然 目 标 字 符 串 中 有 多 个 逻辑 行 ， 就 需要 采取 不 同 的 办 
1& © 
幸好 ， 大 多 数 支 持 正则 表达 式 的 语言 提供 了 一 个 简单 的 办 法 ， 
即 “增强 的 行 锚 点 ” (enhanced line anchor) 匹配 模式 ， 在 这 种 模式 下 ， 
A, A'S, 会 从 字符 串 模 式 切换 到 本 例 中 需要 的 逻辑 行 模 式 。 在 Penl 
中 ， 使 用 种 修饰 符 来 选择 此 模式 : 
$text=~s/A$/< p > /mg; 


请 注意 这 里 同时 使 用 了 /m 和 /g (你 可 以 以 任何 顺序 排列 需要 使 用 的 
gia 。 在 下 一 章 ， 我 们 会 看 到 其 他 语言 是 如 何 处 理 修饰 符 

所 以 ， 如 果 我 们 从 $text 的 和 ...chapter. 四 加 Thus.… 开 始 ， 会 得 到 期 
Ap.. .chapter. M <p> MHThus...’ ° 

DME, WREST? PASS ae SS AF, A 
IINE °c NT MBS AS, RIEA SS, BOAR AL \t\r] SK 
匹配 某 些 系统 在 换行 符 之 前 的 空格 符 、 制 表 

符 或 者 回 车 符 。 这 两 个 表达 式 与 N 是 完全 不 同 的 ， 因 为 它们 确 
实 匹 配 了 一 些 字符 ， T'S, 只 匹配 位 置 。 不 过 ， 因 为 在 本 例 中 我 们 不 
需要 这 些 空格 符 、 制 表 符 和 回 车 符 ， 匹 配 〈 然 后 用 分 段 tag 来 奉 换 ) 这 
些 字符 不 会 市 来 任何 问题 。 

如 果 你 还 记得 第 47 页 的 \s，， 你 可 能 会 想到 “\sss$ ， 就 像 我 们 在 
第 55 页 E-mail 的 例子 中 所 用 的 那样 。 如 果 用 ns 取代 hadj, AA 
Msi 能 够 匹配 换行 符 ， 所 以 整个 表达 式 的 意义 就 不 再 是 “寻找 空 行 及 只 
包括 空白 字符 的 行 ”， 而 是 “寻找 连续 、 空 行 和 只 包括 空白 字符 的 行 的 
结合 ”。 也 就 是 说 ， 如 果 我 们 找到 多 个 连续 的 这 样 的 文本 行 ， 一 个 As 
xS 了 驶 能 够 匹配 它们 。 这 样 的 好 处 在 于 ， 只 会 留 下 一 个 <p> ， 而 不 是 
多 少 空 行 束 留 下 多 少 <p>>。 所 以 ， 如 琳 $text 有 这 样 的 字 
符 串 : 


--with.M 图 . Therefore::: 


我 们 用 : 
$text =~ s/*[ \t\r]*$/<p>/mg; 
HERE 


--with.M] <p> <p> <p> Therefore. 
不 过 ， 如 采 我 们 用 : 
$text =~ s/*\s*$/<p>/mg; 


结 采 要 更 好 看 一 些 : 


--with.M <p> Therefore::: 

所 以 ， 在 最 终 的 程序 中 ， 我 们 会 使 用 As 类 $| 。 

将 E-mail 地 址 转换 为 超 链接 形式 

Text-to-HTML 转换 的 下 一 步 是 识别 出 E-mail 地 址 ， 然 后 把 它们 转 
换 为 “mailto” 链 接 。 例 如 ，jfriedl@oreilly.com 会 被 转换 为 < 
ahref=“mailto: jfriedl@oreilly.com” > jfriedl@oreilly.com < /a > ° 

用 正则 表达 式 来 匹配 或 者 验证 E-mail 地 址 是 常见 的 情况 。E-mail 地 
址 的 标准 规范 异常 繁杂 ， 所 以 很 难 做 到 百分之百 的 准确 ， 但 是 一 些 简 
单 的 正则 表达 式 束 可 以 应 付 遇 到 的 大 多 数 E-mail 地 址 。E-mail 地 址 的 基 
本 形式 是 username@hostname。 在 思考 该 用 怎样 的 表达 式 来 匹配 各 个 骨 
分 之 前 ， 我 们 先 看 看 这 个 正则 表达 式 的 具体 应 用 环境 : 


$text =~ s/\b (username regex)\,@hostname regex) \b/<a href=“mailto:$1">$1<\/a>/g; 


需要 注意 的 一 点 是 其 中 两 个 用 下 画 线 标 注 的 反 斜 线 ， 第 一 个 在 正 
则 表达 式 (\@’) 中 ， 另 一 个 在 replacement 字 符 串 的 末尾 。 使 用 这 两 个 
反 和 斜 线 的 理由 各 不 相同 。 我 会 在 稍 后 讨论 \@ (277) ， 现 在 我 们 只 需 
要 知道 ，Perl 规 定 作 为 文本 字符 的 @ 符 号 必须 转 义 。 

先 介绍 replacement 字 符 串 中 在 ‘之 前 的 反 斜 线 比 较 好 。 我 们 已 经 看 
到 ，Perl 中 查找 蔡 换 的 基本 形式 是 s/regex/replacement/modifier， 用 和 斜 线 
来 分 隔 。 所 以 ， 如 果 我 们 需要 在 某 个 部 分 中 使 用 斜 线 ， 束 必须 使 用 转 
义 ， 否 则 反 斜 线 会 被 识别 为 分 隔 符 ， 作 为 字符 串 的 一 部 分 。 也 束 是 
说 ， 如 果 我 们 希望 在 replacement 字 人 符 串 中 使 用 </a> ， 束 必须 写作 <Va 
> o 

这 么 做 当然 可 以 ， 但 不 太 好 看 ， 所 以 Pen 容许 用 户 目 定 义 分 隅 符 。 
例如 s! regex! string! modifier， 或 者 s{regex}{string}modifier。 无 论 采 
用 哪 种 形式 ， 因 为 replacement 字 符 串 中 的 斜 线 不 再 与 分 隔 符 有 神 突 ， 也 
就 不 需要 转 义 。 第 二 种 形式 的 分 阳 符 非常 明显 ， 所 以 从 现在 开始 我 们 
采用 这 种 形式 。 

回 到 程序 中 来 ， 请 注意 整个 地 址 是 处 于 \b...\b | 之 间 的 。 添 加 这 
些 单 词 分 界 符 能 够 避免 不 完整 严 配 的 情况 ， 例 如 
‘jfriedl@oreilly.compiler’> o 尽管 遭遇 这 种 无 意义 的 字符 串 的 几 
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这 么 做 。 请 注意 我 是 如 何 用 括号 包围 整个 E-mail WHEA, RE Rt 
能 使 用 replacement FFF‘ <a-href=“mailto: $1”>$1</a>’。 

匹配 用 户 名 和 主机 各 

现在 我 们 来 看 匹配 邮件 地 址 所 需要 的 用 户 名 和 主机 名 的 正则 表达 
式 。 主 机 名 ， 例 如 regex.info 或 者 www.oreilly.com， 它 们 由 点 号 分 隔 ， 
以 ‘com”、‘eduw*、‘info?、‘uk* 或 者 其 他 事先 规定 的 字符 序列 结尾 。 匹 配 
E-mail 地 址 的 最 简单 的 办 法 是 wn@Ww+ (Awt) +, H w+ 来 匹 
配 用 户 名 ， 以 及 主机 名 的 各 个 部 分 。 不 过 ， 实 际 应 用 起 来 ， 我 们 需要 
考虑 得 更 周到 一 些 。 用 户 名 可 以 包含 点 号 和 连 字符 (虽然 用 户 名 不 会 
以 这 两 种 字符 开头 ) 。 所 以 ， 我 们 不 应 该 使 用 \w+ |， ， 而 应 该 用 
\wi-\w]* , 。 这 就 保证 用 户 名 以 Ww, 开头 ， 后 面 的 部 分 可 以 包括 点 
号 和 连 字 符 。 (请 注意 ， 我 们 在 字符 组 中 把 连 字符 排 在 第 一 位 ， 这 样 
束 确 保 它们 被 作为 连 字 人 符 ， 而 不 是 用 来 表示 范围 。 对 许多 流派 来 说 ，.- 
Ww 表示 的 范围 肯定 是 错误 的 ， 它 会 产生 一 个 随机 的 字母 、 数 字 和 标点 
符号 的 集合 ， 具 体 取决 于 程序 和 计算 机 所 用 的 字符 编码 。Perl 能 够 正确 
处 理 .Aw， 但 是 使 用 连 字 符 时 多 加 小 心 是 个 好 习惯 。) 

主机 名 的 匹配 要 复杂 一 些 ， 因 为 点 号 只 能 作 分 隔 符 ， 也 束 是 说 两 
个 点 号 之 间 必 须 有 其 他 字符 。 所 以 在 前 面 那个 简单 的 正则 表达 式 中 ， 
主机 名 部 分 用 \w+ Awt) +, 而 不 是 w+, 。 后 者 会 匹配 4.x..”。 但 
是 ， 即 使 是 前 者 ， 也 能 够 匹配 Artichokes48e@1.00 ， 所 以 我 们 需要 更 
27H.» — EE © 

一 个 办 法 是 给 出 末尾 部 分 的 可 能 序列 ， 跟 在 Wwe Awt) A. 
( comledulinfo ) | 之 后 《实际 上 ， 多 选 分 支 应 该 是 
com|edu|govjint|mil|net|org|biz|infojname|museum|coop|aero|[a-z][a-z] ， 不 
过 为 了 简洁 起 见 ， 我 在 这 里 只 列 出 几 项 ) 。 这 样 就 能 容许 开头 的 
\wt, 部 分 ， 然 后 是 可 能 出 现 的 w+) 部 分 ， 最 后 才 是 我 们 指定 的 可 
能 结尾 。 

实际 上 Nw 也 不 是 很 合适 。 ‘Ww, 能 够 匹配 ASCII 字 母 和 数字 ， 这 
没有 问题 ， 但 有 些 系统 中 \w 能 够 匹配 非 ASCII 字 母 ， 例 如 A、c、、 


下 。 在 大 多 数 流派 中 ， 下 画 线 也 是 可 以 的 。 但 这 些 字 符 都 不 应 该 出 现 
在 主机 名 中 。 所 以 ， 我 们 或 许 应 该 用 [azA-Z0-9]) ， 或 者 是 “[a-z0- 
9], 加 上 /i 修饰 符 (进行 不 区 分 大 小 写 的 匹配 ) 。 主 机 名 可 能 包括 连 字 
符 ， 所 以 我 们 用 「[-a-z0-9]， (再 次 注意 ， 连 字符 应 该 放 在 第 一 位 ) 
于 是 我 们 得 到 用 来 匹配 主机 名 的 『[-a-z0-9]+ (\.[-a-z0-9]+) *\. 
(comledulinfo) | ° 
无 论 使 用 什么 正则 表达 式 ， 记 住 它们 应 用 的 情境 都 是 很 重要 的 。 
'[-a-z0-9]+ (\.[-a-z0-9]+) *\. (comledulinfo) ， 这 个 正则 表达 式 本 
4, 可 以 匹配 ‘roan C: \Startup.command at Startup) 但 是 把 它 置 
入 程序 运行 的 环境 中 ， 我 们 就 能 确认 ， 它 会 匹配 我 们 期 望 的 文本 ， 而 
忽略 不 期 望 的 内 容 。 实 际 上 ， 我 会 把 它 放 入 之 前 提 到 的 。 
$text= ~ s{\b ( username regex\@hostname regex ) \b}{<a 
href=“mailto: $1”>>$1</a>}gi; (这 里 用 了 st{...}{...} 分 隔 符 ， 以 
BA) ， 但 这 样 就 必须 折 行 。 当 然 ，Perl 不 关心 这 个 问题 ， 也 不 关心 表 
达 式 是 否 美观 ， 但 我 关心 。 所 以 我 要 介绍 入 修饰 符 ， 它 容许 我 们 重新 编 
排 这 个 表达 式 : 
$text =~ st{ 

\b 

# 把 邮件 地 址 存 入 变量 $1 .… 

| username regex 

\@ 


hostname regex 


) 
\b 
} {<a href=“mailto:$1”>$1</a>}gix; 
啊 哈 ， 现 在 看 起 来 大 不 一 样 了 。 语 句 末 尾 出 现 了 /x (在 /g 和 /i 之 
后 ) ， 它 对 这 个 正则 表达 式 做 了 两 件 简单 但 有 意义 的 事情 。 首 和 完 ， 大 
多 数 空 日 字符 会 被 忽略 ， 用 户 能 够 以 “宽松 排列 (free-format) ”编排 这 
个 表达 式 ， 增 强 可 读 性 。 其 次 ， 它 容许 出 现 以 # 开 头 标记 的 注释 。 
要 指出 的 是 ， 加 上 /x 之 后 ， 表 达 式 中 的 大 部 分 空格 符 变 为 “忽略 自 
身 ? 元 字符 (“ignore me”metacharacter) ， 而 要 的 意思 是 “忽略 该 字符 及 
其 之 后 第 一 个 换行 符 之 前 的 所 有 字符 ”( 呈 111) 。 它 们 不 是 作为 字符 组 


内 部 的 元 字符 (也 就 是 说 ， 即 便 使 用 了 /x， 这 些 字 符 组 也 不 是 “随意 编 
排 ?的 ) 来 对 竺 的， 而 且 ， 同 其 他 元 字符 一 样 ， 如 果 和 希望 把 它们 作为 普 
通 字符 来 处 理 ， 也 可 以 对 它们 加 以 转 义 。 当 然 ， \s, 总 是 能 够 匹配 空 
白 字符 ， 例 如 m/< as+href=...>/x ° 

请 注意 ，/x 只 能 应 用 于 正则 表达 式 本 身 ， 而 不 是 replacement 字 符 
串 。 同 样 ， 即 使 我 们 现在 使 用 的 是 s{...}{...} 的 格式 ， 修 饰 符 接 在 最 后 
的 修之 后 (例如 和 x?) ， 但 是 在 文中 我 们 仍然 使 用 “/x” 代 表 “ 修 饰 符 x”。 

综合 起 来 

现在 ， 我 们 可 以 把 用 户 名 、 主 机 名 的 部 分 ， 以 及 之 前 的 开发 成 果 
结合 起 来 ， 得 到 相对 完整 的 程序 : 


undef $/; # 进入 “文件 读 取 ”模式 

$text =<>; # 读 入 命令 行 中 指定 的 第 一 个 文件 名 

$text =~ s/&/&amp;/g; # 把 基本 的 HTML .. 
$text =~ s/</&lt;/g; Ea FH b < Fe > ... 
$text =~ s/>/&gt;/g; # ... 进行 HTML 转 义 
$text =~ s/*\s*$/<p>/mg; # 划分 段落 


# 转换 为 链接 形式 .… 
$text =~ st{ 
\b 
# 把 地 址 保存 到 $1 .… 
( 
\w[-.\w] * # username 
\@ 
[-a-z0-9]+(\. [-a-z0-9]+)*\. (com|edulinfo) # hostname 
) 
\b 
}{<a href=“mailto:$1”>$1</a>}gix; 


print $text; # RE, ET HTML 文本 

所 有 的 正则 表达 式 都 应 用 于 同一 个 包含 多 行文 本 的 字符 串 ， 需 要 
注意 的 是 ， 只 有 用 于 划分 段落 的 正则 表达 式 才 使 用 /m 修 饰 符 ， 因 为 只 
有 那个 正则 表达 式 用 到 了 "A, 和 '$，。 对 其 他 正则 表达 式 使 用 /m 并 不 
会 产生 影响 (只 会 令 看 程序 的 人 迷惑 ) 。 


把 HTTP URL 转 换 为 链接 形式 

最 后 ， 我 们 需要 识别 HTTP URL， 将 它 变 为 链接 形式 。 也 就 是 说 
把 “http: Wwww.yahoo.com2” 转 变 为 <ahref=http : //www.yahoo.com/> 
http: //www.yahoo.com/</a> ° 


HTTP URL 的 基本 形式 是 http: /hostname/path， 其 中 的 /path 部 分 是 
可 选 的 。 于 是 我 们 得 到 下 面 的 形式 : 
Stext =~ st{ 
\b 
# 将 URL 保存 至 $1 ... 
( 
http:// hostname 
( 
/ path 


2? 
}{<a EE atc 

主机 部 分 的 匹配 可 以 使 用 在 E-mail 例子 中 用 过 的 子 表达 式 。URL 的 
path 部 分 可 以 包括 各 种 字符 ， 在 前 一 章 中 我 们 使 用 的 是 [-a-z0-9 : 
@&? =+，.! /~*'%$]*, (25) ， 它 包括 了 除 空白 字符 、 挖 制 字符 
和 < > O fj 之 外 的 大 多 数 ASCII 字 符 。 

在 使 用 Perl 解决 这 个 问题 之 前 ， 我 们 必须 对 @ 和 $ 进 行 转 义 。 同 
样 ， 我 会 在 稍 后 讲解 原因 (77) 。 现 在 ， 我 们 来 看 hostname 和 path 部 


$text =~ s{ 
\b 
# 将 URL RAES1 .. 


http:// [-a-z0-9]+(\. [-a-z0-9]+)*\. (com|edu|info) \b # hostname 


/ [-a-2z0-9 :\@&2?=+,.!/~*'S\$]* # path 不 一 定 会 出 现 


你 可 能 注意 了 ， 在 path 之 后 没有 \b，， 因 为 URL 之 后 通常 都 是 标 
点 符号 ， 例 如 本 书 在 O'Reilly 的 URL 是 : 

http://www.oreilly.com/catalog/regex3/ 

WERE '\b, ， 就 不 能 匹配 。 

也 就 是 说 ， 在 实际 中 ， 我 们 需要 对 表示 URL 结 束 的 字符 做 一 些 人 
为 的 规定 。 比 如 下 面 的 文本 : 


Read “odd” news at http://dailynews.yahoo.com/h/od, and 
maybe some tech stuff at http://www.slashdot.com! 


现在 正则 表达 式 能 够 匹配 标注 出 的 文本 了 ， 当 然 末 尾 的 标点 显然 
不 应 该 作为 URL 的 一 部 分 。 在 匹配 英文 文本 中 的 URL 时 ， 末 尾 的 
E, ? l] 是 不 应 该 作为 URL 的 一 部 分 的 〈 这 并 不 是 什么 规定 ， 而 是 
我 的 经 验 ， 而 且 大 多 数 时 候 都 有 效 ) 。 这 很 简单 ， 只 需要 在 表达 式 的 
末尾 添加 一 个 表示 “ 除 [.，? ! J) 之 外 的 任何 字符 ”的 否定 逆序 环视 ， 
(2 <LL, ? 1]) 即 可 。 结 果 就 是 ， 在 我 们 匹配 到 作为 URL 匹 配 
的 文本 之 后 ， 逆 序 环视 会 反 过 头 来 看 一 有 眼 ， 保 证 最 后 的 字符 符合 要 
求 。 如 采 不 符合 要 求 ， 引 苟 就 会 重新 检查 作为 URL 的 字符 串 ， 直 到 最 
终 符 合 要 求 为 止 。 也 就 是 强迫 去 挥 最 后 的 标点 ， 让 最 后 的 逆序 环视 匹 
配 成 功 (在 第 5 章 我 们 会 看 到 男 一 个 解决 办 法 呈 206) 。 

插入 之 后 ， 我 们 得 到 了 完整 的 程序 : 


undef $/; # 进入 “文件 读 取 ”模式 
$text = <>; E 读 入 命令 行 中 指定 的 第 一 个 文件 


$text =~ s/&/&amp;/g; # 转换 基本 的 HTML ... 
$text =~ s/</&lt;/q; # ,, FR & < 和 >>， 
$text =~ s/>/&gt;/g; # HAP HTML HR 


$text =~ s/*\s*$/<p>/mg; # 划分 段落 


# 将 E-mail 地 址 转换 为 链接 形式 ,。 
Stext =~ s{ 

\b 

# 把 地 址 保存 到 $]1 


\w[-. \w] * # username 


[-a-z0-9]+(\. [-a-z0-9]+)*\.(com|edulinfo) # hostname 
) 
\b 
}{<a href=“mailto:$1">$1l</a>}gix; 


# 将 HTTP URL 转换 为 链接 形式 。 
Stext =~ s{ 
\b 
# 将 URL 保存 至 S1 ， 
( 
http:// [-a-z0-9]+(\. [-a-z0-9]+)*\. (comledujinfo) \b # hostname 
( 
/ [-a-z0-9 :\@a?=+,.!/~*"$\$]* # path 不 一 定 会 出 现 
(?<![.,2!)) # AWEVAL., 21) 98 
)? 
) 
}{<a href="$1">$1</a>}gix; 
print $text; # 最 后 ， 显 示 结 果 


构建 正则 表达 式 库 
请 注意 ， 在 这 两 个 例子 中 ， 我 们 使 用 同样 的 正则 表达 式 来 匹配 主 
机 名 ， 也 就 是 疝 ， 如 果 要 修改 匹配 主机 名 的 表达 式 ， 我 们 布 望 这 种 修 


改 会 同时 对 两 个 例子 生效 。 我 们 可 以 在 程序 中 多 次 使 用 变量 
$HostnameRegex， 而 不 是 把 这 个 表达 式 写 在 各 处 ， 杂 乱 无 绪 : 


$HostnameRegex = gr/[-a-z0-9]+(\.[-a-z0-9]+)*\. (com|edu|info) /i; 


# 将 E-mail 地 址 转换 为 链接 形式 
$text =~ s{ 

\b 

# 将 地 址 保存 至 $1... 

( 


\w[-. \w] * # username 
\@ 
$HostnameRegex # hostname 


) 
\b 
}{<a href=“mailto:$1">$1</a>}gix; 
# 将 HTTP URL 转换 为 链接 形式 .. 
Stext =~ s{ 
\b 
# Capture the URL to $1 .. 
( 
http:// $HostnameRegex \b # hostname 
( 
/ [-a-z0-9 :\@&2=4,.!/~*'S\$]*  # path 不 一 定 会 出 现 
(Ra ENAA D. # 不 容许 以 [.，3?1!] 结 尾 
) ? 
) 


} {<a href=“$1">$1</a>}gix; 

第 一 行使 用 了 Pen 的 qr 操 作 符 。 它 与 n 和 Ss 操 作 符 类 似 ， 接 收 一 个 正 
则 表达 式 (例如 ， 使 用 qr/.../， 类 似 使 用 my.../ 和 s/.../.../) ， 但 并 不 马 
上 把 这 个 正则 表达 式 应 用 到 某 段 文本 中 进行 匹配 ， 而 是 由 这 个 表达 式 
生成 为 一 个 “regex 对 象 (regex object) ”， 作 为 变量 保存 。 之 后 我 们 就 
能 使 用 这 个 对 象 。 〈 在 本 例 中 ， 我 们 用 变量 $HostnameRegex 来 保存 这 
个 变量 ， 供 后 面 两 个 正则 表达 式 使 用 。) 这 样 做 非常 方便 ， 因 为 程序 
看 起 来 非常 清楚 。 此 外 ， 我 们 的 匹配 主机 名 的 正则 表达 式 只 存在 一 
个 “ 主 源 (main source) ”， 这 样 无 论 在 哪里 需要 匹配 主机 名 ， 都 可 以 直 


接 使 用 它 。 第 6 章 (0277) 还 有 关于 构建 这 种 “正则 表达 式 库 ”的 例子 ， 
具体 讲解 见 第 7 章 (303) 。 

其 他 的 语言 也 提供 了 创建 正则 表达 式 对 象 的 方法 ， 下 一 草 我 们 会 
简要 介绍 若干 语言 ， 而 Java 和 .NET 则 在 第 8 和 第 9 章 详细 讲解 。 

为 什么 有 时 候 $ 和 @ 需 要 转 义 

你 可 能 注意 到 了 ，“$' 符 号 既 可 以 作为 表示 字符 串 结 束 的 元 字符 ， 
又 可 以 用 来 标记 变量 。 通 常 ，'$’ 的 意思 是 很 明确 的 ， 但 如 果 在 字符 组 
内 部 ， 和 情况 就 有 些 磋 烦 ， 因 为 此 时 它 不 能 用 来 表示 字符 串 的 结束 位 
置 ， 只 能 在 转 义 之 后 ， 用 来 标记 变量 。 在 转 义 之 后 ，$ 束 只 是 字符 组 
的 一 部 分 。 而 这 正 是 我 们 所 要 的 ， 所 以 我 们 需要 在 URL 匹 配 的 正则 表 
达 式 中 对 它 进 行 转 义 。 

@ 的 情况 与 之 类 似 。Perl 用 @ 表 示 数 组 名 ， 而 Perl 中 的 字符 串 或 正 
则 表达 式 中 也 容许 出 现 数组 变量 。 如 采 我 们 希望 在 正则 表达 式 中 使 用 
@ 字 符 ， 就 需要 进行 转 义 ， 避 免 把 它 作 为 数组 名 。 一 些 语言 (Java、 
VB.NET ` C` CË ` Emacs ` awk) 不 支持 变量 插值 (variable 
interpolation) 。 有 些 语言 (例如 Perl、PHP、Python、Ruby 和 Tcl) 支持 
变量 插值 ， 但 是 方法 各 有 不 同 。 我 们 会 在 下 一 章 详细 讲解 (101) 


回 到 单词 重复 问题 


That Doubled-Word Thing 
我 希望 第 1 章 提 到 的 单词 重复 问题 能 够 引发 读者 对 于 正则 表达 式 
的 兴趣 。 在 本 章 的 开头 我 给 出 了 一 堆 难 慌 的 代码 ， 将 其 作为 解法 之 


3/ = “.\n"; 
while (<>) { 
next if !s/\b([a-z]+) ((?:\s|<[*>]+>)+) (\1\b) /\e[7m$1\e [m$2\e[7m$3\e [m/ig; 
s/^(2:[^\e]*\n)+//mg; # AIRMAN ARIES 
s/*/S$ARGV: /mg; # 在 行 首 增加 文件 名 


print; 


对 Pel 有 了 些 了 解 之 后 ， 我 希望 读者 至 少 能 够 看 懂 常 规 的 正则 表 
达 式 应 用 其 中 的 < > ， 三 个 s/.../.../， 以 及 print。 不 过 ， 其 他 的 部 


分 仍然 很 难 。 如 果 你 关于 Pen 的 知识 全 部 来 自 本 章 (而 且 关 于 正则 表达 
式 的 知识 都 来 自 之 前 的 章节 ) ， 这 个 例子 可 能 会 超出 你 的 理解 能 力 。 
不 过 ， 如 果 细 致 考察 起 来 ， 我 认为 这 个 正则 表达 式 并 不 复杂 “。 在 重读 
程序 之 前 ， 我 们 不 妨 回 过 头 看 看 第 1 页 的 程序 规格 要 求 ， 并 党 试 运行 一 
次 : 

è perl -w FindDbl ch01 ,txt 

ch0l.txt: check for doubled words (such as this this), a common problem with 

ch0l ,txt: * Find doubled words de spite capitalization differences, such as with 'The 


ch0l.txt:the', as well as allow differing amounts of whitespace (space, tabs, 
chul ,txt: /\<(1,000,000|million| thousand thousand) /. But alternation can't be 
ch0l.txt: of this chapter. If you knew the the specific doubled word to find (such 


先 来 看 这 个 Perl 的 解法 ， 然 后 我 们 会 看 到 一 个 Java 的 解法 ， 接 触 另 
一 种 使 用 正则 表达 式 的 思路 。 现 在 列 在 下 面 的 程序 使 用 了 sf{regex} 
{replacementjmodifier 的 替换 形式 ， 同 时 使 用 了 AMx 修饰 符 来 提高 清晰 程 
E (空间 更 充裕 的 时 候 ， 我 们 使 用 更 易 懂 的 ‘next unless’  #& ‘next 
if! ’?) 。 除 去 这 些 ， 它 与 本 章 开 头 的 程序 其 实 就 是 一 模 一 样 的 。 

示例 2-3: 用 Perl 处 理 重 复 单词 


$/ = %.\n"; 04 RHA “RBA” (“chunk-mode”) ; 一 块 文本 的 终结 为 点 号 和 换 
行 符 的 结合 体 
while (< >) e 
{ 
next unless s{+ # (下 面 是 正则 胡 达 式 ) 

### 匹配 一 个 单词 : 
\b # 单词 的 开始 位 置 . 
( [a-z]+ ) + 把 读 取 的 单词 存储 至 $S1 (fe \1) 


Hit 下 面 是 任意 多 的 空白 字符 和 /或 tag 
( t 把 空白 保存 到 $2 


(23 # (使 用 非 捕 获 型 括号 ) 
\s # 空白 字符 (包括 换行 符 ， 这 样 非常 方便 ) 
| 并 或 者 是 
<“[^>]+> # <TAG>H AM tag 

)+ # 至 少 需要 出 现 一 次 ， 多 次 不 受 限制 


HH 现在 再 次 匹配 革 一 个 单词 ; 
(\1\b) # \b 保证 用 来 避免 次 套 单词 的 情况 ， 保 存 到 $3 
# 【正则 表达 式 结束 ) 
} 
# 上 面 是 正则 表达 式 ， 下面 是 replacement FAP, REAME, /i, /g#/x 
{\e[7m$1\e[m$2\e[7m$3\e[m]igx; + 
s/*(2:[*\e]*\n)+//mg; = # 去 掉 所 有 未 标记 的 行 
s/*/SARGV: /mg; = § 在 每 行 开头 加 上 文件 名 
print; 
} 
这 小 段 程序 中 出 现 了 许多 我 们 没 见 过 的 东西 。 下 面 我 会 简要 地 介 
绍 它 们 以 及 背后 的 逻辑 ， 不 过 我 建议 读者 查看 Perl 的 man page T ff#2 77 
《如 果 是 正则 表达 式 相 关 的 细节 ， 可 以 查阅 第 7 章 ) 。 在 下 面 的 描述 
H, “神奇 ”(magic) 的 意思 是 “这 里 用 到 了 读者 可 能 不 熟悉 的 Perl 的 特 
性 ”。 
0 因为 单词 重复 问题 必须 应 付 单词 重复 位 于 不 同行 的 情况 ， 我 们 不 
能 延续 在 E-mail 的 例子 中 使 用 的 普通 的 按 行 处 理 的 方式 。 在 程序 中 使 用 
特殊 变量 $/ ( 没 错 ， 这 确实 是 一 个 变量 ) 能 使 用 一 种 神奇 的 方式 ， 让 < 


> 不 再 返回 单行 文字 ， 而 返回 或 多 或 少 的 一 段 文 字 。 返 回 的 数据 仍然 
是 一 个 字符 串 ， 只 是 这 个 字符 串 可 能 包含 多 个 逻辑 行 。 

e 你 是 否 注意 到 ，<< > 没有 值 赋 给 任何 变量 ? 作为 while 中 的 条 件 
使 用 时 ，<<> 的 神奇 之 处 在 于 ， 它 能 够 把 字符 串 的 内 容 赋 给 一 个 特殊 
的 默认 变量 ( 注 6) 。 该 变量 保存 了 s$/.../.../ 和 print 作 用 的 默认 字符 
串 。 使 用 这 些 默 认 变 量 能 够 减少 了 见 余 代 码 ， 但 Pen 新 手 不 容易 看 明日 ， 
所 以 我 还 是 推荐 ， 在 你 习惯 之 前 ， 把 程序 写 得 更 清楚 一 些 。 

= 如 采 没 有 进行 任何 替换 ， 那 么 奉 换 命令 之 前 的 next unless 会 导致 
Perl 中 断 处 理 当 前 字符 串 ( 转 而 开始 下 一 个 字符 串 ) 。 如 果 在 当前 字符 
串 中 没有 找到 单词 重复 ， 也 就 不 人 进行 下 一 步 的 工作 。 

zx replacement 字 符 串 包含 的 束 是 “$1$2$3”， 加 上 插入 的 ANSI 转 义 
序列 ， 把 两 个 重 琶 的 词 标 记 为 高 亮 ， 中 间 的 部 分 则 不 标记 高 亮 。 转 义 
序列 \e[7m 用 于 标注 高 亮 的 开始 ，\e[m 用 于 标注 高 亮 的 结束 (在 Perl 的 正 
则 表达 式 和 字符 串 中 ，\e 用 来 表示 ASCII 的 转 义 字符 ， 该 字符 表示 之 后 
的 字符 为 ANSI 转 义 序列 ) 。 

仔细 看 看 正则 表达 式 中 的 那些 括号 ， 你 会 发 现 “$1$2$3” 表 示 的 完 
全 就 是 匹配 的 文本 。 所 以 ， 除 了 添加 转 义 序列 之 外 ， 整 个 蔡 换 命令 并 
没有 进行 任何 实质 修改 。 

我 们 知道 $1 和 $3 匹配 的 是 同样 的 文本 〈 这 也 是 整个 程序 的 意义 所 
Æ! ) ， 所 以 在 replacement 中 只 用 一 个 也 是 可 以 的 。 不 过 ， 因 为 这 两 
个 单词 的 大 小 写 可 能 有 区 别 ， 我 用 了 两 个 变量 。 

= 这 个 字符 串 可 能 包括 多 个 逻辑 行 ， 不 过 在 奉 换 命令 标记 了 所 有 的 
重复 单词 之 后 ， 我 们 希望 只 保留 那些 包含 转 义 字符 的 逻辑 行 。 去 挥 不 
包含 转 义 字符 的 逻辑 行 之 后 ， 留 下 的 就 是 字符 捉 中 我 们 需要 处 理 的 
行 。 因 为 我 们 在 蔡 换 中 使 用 的 是 增强 的 行 锚 点 匹配 模式 (/m 修 饰 
符 ) ， 正 则 表达 式 (Aex) +, 能 够 找 出 不 包含 转 义 字符 的 逻辑 
行 。 用 这 个 表达 式 来 奉 换 掉 所 有 不 需要 处 理 的 行 。 结 有 果 留 下 的 只 是 包 
含 转 义 字符 的 逻辑 行 ， 也 即 那些 包含 单词 重复 的 行 〈 注 7) 。 

x 变量 $ARGYV 提供 了 输入 文件 的 名 字 。 结 合 /m Mg, ANERE 
令 会 把 输入 文件 名 加 到 留 下 的 每 一 个 逻辑 行 的 开头 。 多 酷 ! 


最 后 ，print 会 输出 字符 串 中 留 下 的 逻辑 行 以 及 转 义 字符 。while 循 
环 对 输入 的 所 有 字符 串 重复 处 理 (每 次 处 理 一 段 ) 。 

更 深入 一 点 ， 运算 符 、 画 数 和 对 象 

我 之 前 已 经 强调 过 ， 在 本 章 我 以 Perl 作为 工具 来 讲解 概念 。Perl 
的 确 是 一 种 有 用 的 工具 ， 但 我 想 要 强调 的 是 ， 这 个 问题 利用 其 他 语言 
的 正则 表达 式 解 决 起 来 也 很 容易 。 

同样 ， 因 为 Perl 具有 与 其 他 高 级 语言 不 同 的 独特 风格 ， 讲 解 这 些 
概念 更 加 容易 。 这 种 独特 风格 就 是 ， 正 则 表达 式 是 “基础 级 别 (first- 
class) ”的 。 也 就 是 说 ， 基 本 的 运算 符 可 以 直接 作用 于 正则 表达 式 ， 就 
好 像 + 和 -作用 于 数字 一 样 。 这 样 减轻 了 使 用 正则 表达 式 的 “语法 包 
Hk” (syntactic baggage) ° 

其 他 许多 语言 并 没有 这 样 的 特性 。 因 为 第 3 章 中 提 到 的 原因 (号 
93) ， 许 多 现代 语言 坚持 提供 专用 的 函数 和 对 象 来 处 理 正则 表达 式 。 
例如 ， 可 能 有 一 个 函数 授 收 表示 正则 表达 式 的 字符 串 ， 以 及 用 于 搜索 
的 文本 ， 然 后 根据 正则 表达 式 能 否 匹配 该 文本 ， 返 回 真 值 或 假 值 。 更 
常见 的 情况 是 ， 这 两 个 功能 (首先 对 一 个 作为 正则 表达 式 的 字符 串 进 
行 解释 (interpretion) ， 然 后 把 它 应 用 到 文本 当中 ) 被 分 割 为 两 个 或 更 
多 分 离 的 砂 数 ， 就 像 下 一 页 的 Java 代 码 一 样 。 这 些 代码 使 用 Javal.4 以 后 
作为 标准 的 java.util.regex 包 。 

在 程序 的 上 部 我 们 看 到 ， 在 Perl 中 使 用 的 3 个 正则 表达 式 在 Java 
中 作为 字符 串 传递 给 Pattern.compile 程 序 。 通 过 比较 我 们 发 现 ，Java 版 
本 的 正则 表达 式 包含 了 更 多 的 反 斜 线 ， 原 因 是 Java 要 求 正 则 表达 式 必 须 
以 字符 串 方式 提供 。 正 则 表达 式 中 的 反 斜 线 必 须 转 义 ， 以 避免 Java 在 解 
析 字 符 串 时 按照 目 己 的 方式 处 理 它们 。 

我 们 还 应 该 注意 到 ， 正 则 表达 式 不 是 在 程序 处 理 文本 的 主体 部 分 
出 现 ， 而 是 在 开头 的 初始 化 部 分 出 现 的 。Pattern.compile 函数 所 作 的 仅 
仅 是 分 析 这 些 作为 正则 表达 式 的 字符 串 ， 构 建 一 个 “已 编译 的 版 本 

(compiled version) ”, K EIR Patent Œ (例如 regex1) 。 然 后 ， 
在 处 理 文本 的 主体 部 分 ， 已 编译 的 版 本 通过 regexl.matcher (text) 应 
用 到 文本 之 上 ， 得 到 的 结果 用 于 替换 。 同 样 ， 我 们 会 在 下 一 章 探究 其 
中 的 细节 ， 在 这 里 我 们 只 需要 了 解 ， 在 学 习 任 何 一 门 文 持 正 则 表达 式 


的 语言 时 ， 我 们 需要 注意 两 点 : 正则 表达 式 的 流派 ， 以 及 该 语言 运用 
正则 表达 式 的 方式 。 
示例 2-4: 用 Java 解 决 重复 单词 的 问题 


import java.io.*; 
import java.util.regex.Pattern; 
import java.util.regex.Matcher; 


public class TwoWord 
{ 
public static void main(String [] args) 
{ 
Pattern regexl = Pattern.compile( 
*\\b ( [a-z] +) ((?:\\sI\\<(*>]4\\>) +) (\AL\\D) ", 
Pattern.CASE INSENSITIVE); 
String replacel = “\033[7m$1\033 [m$2\033[7m$3\033 [m"; 
Pattern regex2 = Pattern.compile(“*(?: (*\\e] *\\n)+”, Pattern.MULTILINE) ; 
Pattern regex3 = Pattern.compile(“*(({*\\n)+)”, Pattern.MULTILINE); 


// 对 于 命令 行 的 每 个 参数 进行 如 下 处 理 … 
for (int i = 0; i < args.length; i++) 
{ 
try | 
BufferedReader in = new BufferedReader (new FileReader(args[i])); 
String text; 


// For each paragraph of each file... 
while ((text = getPara(in)) != null) 
{ 
// 应 用 3 & RR 
text = regexl.matcher (text) .replaceAll (replacel); 
text = regex2.matcher(text).replaceAll(""); 
text = regex3.matcher (text) .replaceAll(args[i] + “: $1”); 


// 显示 结果 
System.out.print (text) ; 
} 
jeatch (IOException e) { 
System.err.printin(“can't read [“+#args[i]+"]: “ + e.getMessage()); 
} 


) 


// 用 于 读 入 “一 段 ”文本 的 子 程序 
static String getPara (BufferedReader in) throws java.io.IOException 
{ 

StringBuffer buf = new StringBuffer(); 

String line; 


while ((lineé = in.readLine()) != null s& 
(buf.length() == 0 || Line.length() != 0)) 
{ 


} 
return buf.length() == 0 ? null : buf.toString(); 


buf.append(line + “\n”); 


第 3 章 正则 表达 式 的 特性 和 流派 概览 


Overview of Regular Expression Features and Flavors 

现在 我 们 稍微 找到 点 感觉 了 ， 也 见识 了 知 干 使 用 正则 表达 式 的 工 
具 软 件 ， 你 可 能 锁 得 ， 该 坐 下 来 潜心 研究 研究 如 何 使 用 它们 了 。 不 
过 ， 比 较 比 较 第 1 章 中 不 同 版 本 的 egrep， 或 是 前 一 章 中 Perl 程 序 和 Java 
程序 的 区 别 就 会 发 现 ， 工 具 不 同 ， 正 则 表达 式 的 写法 和 用 法 都 有 很 大 
的 不 同 。 

在 某 种 特定 的 窒 主 语言 或 工具 软件 中 使 用 正则 表达 式 时 ， 主 要 有 3 
个 问题 值得 注意 : 

e 文 持 的 元 字符 ， 以 及 这 些 元 字符 的 意义 。 这 通常 称 为 正则 表达 
式 的 “流派 (flavor) ” 

e 正 则 表达 式 与 语言 或 工具 的 “交互 ”(interface) 方式 。 辟 如 如 何 
进行 正则 表达 式 操作 ， 容 许 进行 哪些 操作 ， 以 及 这 些 操作 的 目标 文本 
类 型 。 

e 正 则 表达 式 引擎 如 何 将 表达 式 应 用 到 文本 。 语 言 或 工具 的 设计 
者 实现 正则 表达 式 的 方法 ， 对 正则 表达 式 能 够 取得 的 结 末 有 重要 的 影 
响 。 

正则 表达 式 和 汽车 

购买 汽车 时 ， 我 们 需要 考虑 的 问题 和 上 面 3 点 很 相似 。 正 则 表达 
式 中 的 元 字符 是 应 当 首 先天 注 的 ， 它 相当 于 汽车 的 造型 、 色 彩 和 内 
岳 ， 例 如 CD 播放 器 和 真 诺 座 森 。 印 刷 光 鲜 的 宣传 册 上 经 名 可 以 见 到 这 
些 信息 ， 在 正则 表达 式 的 世界 中 ， 与 之 对 应 的 就 是 第 32 页 的 元 字符 列 
表 。 这 些 信息 很 重要 ， 但 还 不 是 全 部 。 

正则 表达 式 与 宿主 语言 的 交互 方式 (interface) 也 很 重要 。 人 交互 方 
式 的 一 部 分 内 容 起 到 闭 贤 性 作用 ， 描 述 对 应 的 编程 语言 中 正则 表达 式 
的 应 用 规则 。 男 一 部 分 内 容 定义 功能 ， 它 们 决定 了 语言 所 能 文 持 的 操 
作 ， 以 及 操作 的 难 易 程 度 。 对 应 于 汽车 的 例子 ， 它 相当 于 汽车 与 我 们 
和 我 们 的 生活 相 “ 结 合 ” 的 程度 。 某 些 问题 可 能 是 装饰 性 的 ， 例 如 加 油 
口 在 车 的 哪 一 人 出， 车 窒 是 否 能 电动 升降 。 其 他 问题 可 能 重要 些 ， 例 如 


征 手 动 变速 还 是 目 动 变速 。 还 有 些 关 于 功能 的 问题 : 你 的 车 怎样 开 进 
EE? ERE fe ARS RAIS? Rete SRI? 或 者 五 个 大 
A? 《以 及 这 些 人 如 何 进出 ， 在 这 个 问题 上 四 门 车 显然 比 两 门 车 有 优 
D) 。 宣 传 册 会 介绍 一 些 此 类 信息 ， 不 过 你 可 能 需要 阅读 封底 的 小 字 
A Be T HEMAT o 
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在 这 里 不 适用 ， 因 为 大 家 都 理解 汽车 发 动机 工作 的 基本 知识 : 如 采 是 
汽 铀 发 动机 ， 人 们 束 不 会 往 油箱 里 加 柴油 。 如 有 果 是 手动 变速 ， 他 们 不 
会 起 记 踩 离合 器 。 但 是 ， 在 正则 表达 式 的 世界 中 ， 即 使 是 一 些 最 基本 
的 知识 : 例如 正则 引擎 的 匹配 原理 ， 以 及 该 原理 对 表达 式 的 调 校 和 使 
用 的 影响 ， 通 营 都 没有 文档 介绍 。 但 是 ， 这 些 细节 对 实际 使 用 正则 表 
达 陈 又 极其 重要 ， 所 以 我 们 会 在 下 一 章 用 整 章 的 篇 幅 来 讲解 。 

本 章 的 内 容 

如 标题 所 示 ， 这 一 章 讲解 正则 表达 式 的 特性 和 流派 。 它 介绍 了 经 
常 使 用 的 元 字符 ， 以 及 在 具体 的 工具 软件 中 使 用 正则 表达 式 的 方式 。 
这 些 内 容 涵 盖 了 上 文 提 到 的 前 面 两 点 。 第 三 点 一 一 正则 引擎 是 如 何 工 
作 的 ， 这 些 工作 原理 有 什么 实际 意义 一 一 会 在 下 面 的 几 章 中 涉及 。 

天 于 本 章 ， 我 要 说 的 一 点 是 ， 它 并 不 能 告诉 你 某 种 工具 软件 中 的 
正则 表达 式 提 供 了 哪些 特性 ， 也 不 会 教育 你 如 何 使 用 在 提 过 的 各 种 工 
具 软 件 和 编程 语言 中 运用 正则 表达 式 。 相 反 ， 它 的 目的 是， 提供 天 于 
正则 表达 式 本 和 映 和 使 用 它 的 工具 软件 的 完整 图 景 。 如 有 果 我 们 与 世 隔 
绝 ， 只 使 用 一 件 工具 ， 或 许 不 需要 关心 其 他 的 工具 (或 者 是 该 工具 的 
其 他 版 本 ) 有 什么 差异 。 但 现实 情况 并 非 如 此 ， 所 以 了 解 我 们 所 用 工 
具 的 技术 渊源， 或 许 能 够 提供 有 趣 而 义 有 价值 的 局 示 。 


在 正则 的 世界 中 漫步 


A Casual Stroll Across the Regex Landscape 

我 喜欢 在 故事 的 开头 讲 讲 某 些 正 则 表达 式 的 流派 以 及 相应 程序 的 
演变 过 程 。 所 以 ， 请 准备 一 杯 你 最 喜欢 的 热 (BURA) 饮料 ， 放 轻 
松 ， 我 们 一 起 来 看 看 今天 的 正则 表达 式 背 后 古怪 的 发 展 史 。 这 样 做 是 
为 了 让 你 全 面 了 解 正 则 表达 式 ， 培 养 追 问 “ 为 什么 会 如 此 ”的 习惯 。 我 
们 为 有 兴趣 的 读者 准备 了 一 些 脚注 ， 不 过 大 部 分 脚注 只 能 算是 博得 读 
者 一 笑 的 人 花架。 


正则 表达 式 的 起 源 


The Origins of Regular Expressions 

关于 正则 表达 式 ， 最 初 的 想法 来 目 20 世 纪 40 年 代 的 两 位 神经 学 
家 ，Warren McCulloch 和 Walter Pitts, ， 他 们 研究 出 一 种 模型 ， 认 为 神经 
系统 在 神经 元 层面 上 就 是 这 样 工作 的 ( 注 1) 。 若 干 年 后 ， 数 学 家 
Stephen Kleene 在 代数 学 中 正式 描述 了 这 种 被 他 称 为 “正则 集 
合 ” (regular sets) 的 模型 ， 正 则 表达 式 才 成 为 现实 。Stephen 发 明了 一 
套 人 简洁 的 表示 正则 集合 的 方法 ， 他 称 之 为 “正则 表达 式 ” (regular 
expressions) 9 

20 世 纪 50 年 代 和 60 年 代 ， 理 论 数学 界 对 正则 表达 式 进行 了 充分 的 
研究 。Robert Constable 的 文章 为 那些 对 数学 感 兴趣 的 读者 提供 了 很 不 
错 的 简介 ( 注 2) 。 

尽管 存在 更 古老 的 应 用 正则 表达 式 的 证 据 ， 但 我 能 找到 的 是 ， 关 
于 在 计算 方面 使 用 正则 表达 式 的 资料 ， 最 早 发 表 的 是 1968 F Ken 
Thompson 的 文章 Regular Expression Search Algorithm ( 注 3) ， 在 文 
中 ， 他 搬 述 了 一 种 正则 表达 式 编译 硕 ， 该 编译 侣 生成 了 IBM 7094 的 
object 人 代码。 由 此 也 诞生 了 他 的 qed， 这 种 编辑 絮 后 来 成 了 Unix 中 ed 编辑 
铬 的 基础 。 


ed 的 正则 表达 式 并 不 如 qed 的 移 进 ， 但 是 这 是 正则 表达 式 第 一 次 在 
非 扩 术 领 域 大 规模 使 用 。ed 有 条 命令 ， 显 示 正 在 编辑 的 文件 中 能 够 匹 
配 特定 正则 表达 式 的 行 。 该 命令 “g/Regular Expression/p”， 读 作 
“Global Regular Expression Print” (应 用 正则 表达 式 的 全 局 输出 ) 。 这 
个 功能 非常 实用 ， 最 终 成 为 独立 的 工具 grep 〈 之 后 又 产生 了 egrep 
扩展 的 grep) 。 

Grep 中 的 元 字符 

相 比 egrep，grep 和 其 他 早期 工具 所 支持 的 元 字符 相当 有 限 。 元 字 
符 兴 是 受 文 持 的 ， 但 是 + 和 ? 则 不 受 支持 (不 支持 问号 是 很 严重 的 缺 
K) 。Grep 中 用 于 捕获 元 字符 的 是 \ 〈..，， 而 未 转 义 的 括号 会 当 作 普 
通 字 符 〈 注 4) 。grep 支 持 行销 点 (line anchors) ， 但 方式 十 分 有 限 。 
如 果 人 ^ 出 现在 正则 表达 式 的 开头 ， 它 束 是 匹配 行 开 头 的 元 字符 。 人 否则 它 
束 不 是 一 个 元 字符 ， 而 只 是 一 个 普通 的 脱 字 符 。 同 样 ，$ 只 有 出 现在 正 
则 表达 式 的 末尾 时 才 被 当 作 元 字符 。 结 果 ， 用 户 没 法 使 用 end$lAstart , 
这 样 的 表达 式 。 不 过 这 不 要 紧 ， 因 为 grep 不 文 持 多 选 结构 。 

元 字符 的 作用 规则 也 很 重要 。 例 如 ，grep 的 最 大 问题 或 许 在 于 ， 
星 号 无 法 用 来 限定 括号 内 的 子 表达 式 ， 而 只 能 用 于 限定 普通 的 字符 、 
字符 组 ， 或 者 点 号 。 所 以 ， 在 grep 中 ， 括 号 的 作用 仅 限 于 捕获 已 匹配 的 
文本 ， 而 不 能 用 来 进行 普通 的 分 组 。 实 际 上 ， 某 些 早期 版 本 的 grep 甚 至 
不 文 持 括号 髓 套 。 

Grep 的 发 展 历程 

尽管 今天 的 许多 系统 都 有 对 应 的 grep， 但 你 会 注意 到 ， 本 书 中 提 到 
grep 时 使 用 的 都 是 过 去 时 态 (译注 1) 。 过 去 时 对 应 旧版 本 所 属 的 流 
派 ， 它 们 的 历史 都 超过 30 年 了 。 在 这 段 时 间 中 ， 技 术 在 不 断 进步 ， 昌 
的 程序 也 会 加 入 新 的 特性 ，grep 也 不 例外 。 

在 最 老 版 本 的 grep 之 上 ，AT&T 的 贝尔 实验 室 加 入 了 一 些 新 的 特 
性 ， 例 如 从 lex 程 序 中 借鉴 来 的 \{min，max\}。 他 们 还 修正 了 -y 选 项 ， 早 
期 版 本 的 grep 通 过 -y 进 行 不 区 分 大 小 写 的 匹配 ， 但 此 功能 并 不 正常 。 同 
Hf, Berkeley 的 人 加 入 了 表示 单词 开头 和 结束 的 元 字符 ， 把 -y 改 为 -i。 
不 茎 的 是 ， 星 号 或 其 他 量词 仍然 无 法 作用 于 括号 内 的 表达 式 。 

Egrep 的 发 展 历程 


此 时 ，Alfred Aho (同样 是 AT&T 的 贝尔 实验 室 ) 写 出 了 egrep， 它 
提供 了 第 1 章 介绍 的 各 种 元 字符 中 的 大 部 分 元 字符 。 更 重要 的 是 ， 它 以 
一 种 全 然 不 同 (但 总 的 来 说 更 好 ) 的 方式 实现 了 这 些 功能 。 不 但 加 上 
了 +| 和 ? ，， 还 容许 量词 作用 于 括号 内 的 表达 式 ， 这 大 大 增强 了 
egrep 的 表达 能 力 。 

同时 ， 多 选 结构 加 入 了 ， 行 锁 点 也 升级 到 “基础 级 别 "”， 可 以 在 正 
则 表达 式 的 任何 地 方 使 用 。 不 过 ，egrep 也 不 够 完美 有 时 候 它 能 匹 
配 ， 但 不 会 显示 结果 ， 而 且 它 缺乏 某 些 当今 流行 的 特性 。 不 过 无 论 如 
何 ， 它 都 比 grep 有 用 得 多 。 

其 他 工具 的 发 展 历程 

就 在 egrep 演 变 的 同时 ， 其 他 程序 ， 例 如 awk、lex 和 sed， 也 在 按 各 
自 的 脚步 前 进 。 通 常 ， 开 发 人 员 会 把 某 个 程序 中 自己 喜欢 的 特性 添加 
到 其 他 程序 中 。 有 时候 ， 结 果 并 不 尽 如 人 意 。 例 如 ， 如 有 果 要 在 grep 中 
增加 对 '+ | 的 支持 ， 就 不 能 直接 使 用 ‘+*， 因 为 长 期 来 以 来 在 grep 
中 ‘都 不 是 元 字符 ， 突 然 进 行 这 种 修改 会 让 大 家 感到 不 适应 。 
为 \+’ 可 能 是 grep 的 用 户 在 正常 情况 下 不 会 输入 的 ， 把 它 作 为 “ 重 现 一 
次 或 多 次 ”的 元 字符 可 能 更 合适 。 

有 了 时候 ， 添 加 新 特性 也 会 带 来 新 的 bug。 男 外 一 些 时 候 ， 新 添加 的 
特性 不 久 后 又 被 删除 了 。 构 成 流派 的 各 个 细微 的 方面 ， 几 乎 都 没有 什 
么 文档 ， 所 以 新 的 工具 软件 要 么 形成 了 自己 的 流派 ， 要 么 尝试 模仿 其 
他 工具 ， 提 供 “ 看 来 相似 ”的 功能 。 

这 一 切 ， 加 上 漫长 的 发 展 史 ， 众 多 的 程序 员 ， 结 果 束 是 巨大 的 谜 
局 〈 注 5) 。 

POSIX 一 一 标准 化 的 党 试 

We + -- 1986 4F 4) POSIX Portable Operating System Interface (可 移 
植 操 作 系统 接口 ) 的 缩写 ， 它 是 一 系列 标准 ， 确 保 操作 系统 之 间 的 移 
植 性 。 该 标准 的 某 些 部 分 关乎 正则 表达 式 和 使 用 他 们 的 传统 工具 ， 所 
以 值得 我 们 关注 。 不 过 ， 本 书 涉 及 的 各 种 流派 无 一 严格 地 遵守 了 所 有 
的 相关 规定 。 为 了 厘清 正则 表达 式 的 混乱 局 面 ，POSIX 把 各 种 常见 的 
流派 分 为 两 大 类 : Basic Regular Expressions (BREs) 和 Extended 


Regular Expressions (EREs) 。POSIX 程 序 必须 支持 其 中 的 任意 一 种 。 
下 页 的 表 3-1 简 要 介绍 了 这 两 种 流派 的 元 字符 。 

POSIX 标 准 的 主要 特性 之 一 是 locale， 它 是 一 组 关于 语言 和 文化 传 
例如 日 期 和 时 间 的 格式 、 货 币 币 值 、 字 符 编码 对 应 的 意义 等 
的 设 定 。locals 的 目的 在 于 让 程序 变 得 国际 化 。 它 们 不 是 正则 表达 
式 相 关 的 概念 ， 尽 管 它们 会 影响 正则 表达 式 的 使 用 。 举 例 来 说 ， 工 作 
于 Latin-1 编 码 〈 也 称 为 "SO-8859-1”) 之 中 时 ,a 和 A (分 别 对 应 十 进 
制 编码 224 和 160) 也 被 认为 是 “字符 ”， 任 何不 区 分 大 小 写 的 正则 表达 
式 都 会 认为 这 两 个 字符 是 相等 的 。 

表 3-1: POSIX 正 则 表达 式 流派 概览 


正则 表达 式 特性 EREs 
RS l he) fd / 
TT hh L 
rar 一 一 
E [a] Hig) 
分 组 \ (e+ \ 
量词 可 否 作 用 于 括号 J / 
KANA 
$ tth | 
男 一 个 例子 是 w， 通 常用 于 表示 “构成 单词 的 字符 ” (在 很 多 流派 
中 ， 它 等 价 于 [a-zA-Z0-9_]) 。 这 个 特性 并 不 是 POSIX 中 必须 的 ， 但 容 
许 出 现 。 如 果 文 持 的 话 ，\w 束 能 对 应 locale 中 的 所 有 字母 和 数字 ， 而 不 
仅仅 限于 ASCII 编 码 的 字符 和 数字 。 
如 果 程 序 支 持 Unicode， 那 么 关于 locale 的 问题 就 极 大 地 简化 了 。 
Unicode 的 详细 讨论 从 106 页 开始 。 
Henry Spencer 的 正则 表达 式 包 
同样 是 在 1986 年 ， 发 生 了 于 一 件 更 重要 的 事情 ，Henry Spencer 发 
布 了 用 C 语 言 写 的 正则 表达 式 包 ， 这 个 包 可 以 毫 无 困难 地 置 入 其 他 程序 
中 一 一 这 在 当时 具有 开创 性 的 意义 。 每 一 个 使 用 Henry 的 包 的 程序 


ai 


的 确 存 在 很 多 一 一 都 属于 相同 的 流派 ， 除 非 程 序 的 作者 费 尽 周折 
去 修改 。 

Perl 的 发 展 历程 

差不多 在 同时 ，Larry Wall 开 始 开 发 一 种 工具 ， 世 就 是 日 后 的 Perl 
语言 。 他 的 patch 程 序 已 经 大 大 促进 了 分 布 式 软件 开发 (distributed 
software development) ， 但 是 Perl 注定 要 产生 重大 的 影响 。 

1987 年 12 月 ，Larry 发 布 了 Perl Version 1。Perl 很 快 引起 了 关注 ， 
为 它 粹 合 了 其 他 语言 的 众多 特性 ， 但 指 同 一 个 明确 的 目的 : Be RA] 
日 常 所 说 的 “实用 (useful) ” 

Perl 的 特性 中 值得 一 提 的 是 ， 它 提供 了 传统 上 只 有 专用 工具 sed 和 
awk 才 提供 的 正则 表达 式 控 作 人 符 一 一 这 在 通用 脚本 语言 中 是 个 首创 。 正 
则 引擎 的 代码 来 目 一 个 早期 的 项 目 Larry 的 新 闻 阅 读 器 m (其 中 的 
正则 表达 式 代 码 来 自 James Gosling 的 Emacs ( 注 6) ) 。Perl 的 正则 流 
派 ， 用 当时 的 标准 衡量 是 很 强大 的 ， 但 功能 不 如 今天 那样 齐全。 它 主 
要 的 问题 在 于 ， 最 多 只 能 支持 9 组 括号 ，9 个 多 选 结构 ， 最 糟糕 的 是 ， 
括号 内 不 容许 出 现 | ， 也 不 能 进行 不 区 分 大 小 写 的 匹配 ， 不 支持 字符 
组 中 的 \w (完全 不 支持 \d 和 \s) 。 也 不 支持 区 间 量 词 {min，max}。 

Perl 2 发 布 于 1988 年 6 月 。Larry 完 全 放弃 了 原 有 的 正则 表达 式 代 
码 ， 而 采用 了 前 面 提 到 过 的 Henry Spencer 的 正则 表达 式 包 的 增强 版 。 
括号 的 数目 仍然 只 有 9 个 ， 但 是 括号 中 可 以 使 用 || 了 。\d 和 \s 的 支持 也 
加 了 进来 ，\w 现 在 可 以 匹配 下 画 线 了 ， 从 这 时 开始 ，\w 能 够 匹配 Perl 
的 变量 名 中 容许 出 现 的 字符 。 此 外 ， 字 人 符 组 之 内 也 可 以 出 现 元 字符 

(表示 否定 的 元 字符 、\D、\W 和 和 \S， 也 可 以 支持 ， 但 不 能 使 用 在 字符 
组 内 部 ， 而 且 总 在 有 些 情况 下 无 法 正常 工作 ) 。 很 重要 的 一 点 是 ， 添 
加 了 /i 量词 ， 能 够 进行 不 区 分 大 小 写 的 匹配 。 

Perl 3 发 布 于 一 年 多 以 后 的 1989 年 10 月 。 它 添加 了 /le 量词 ， 这 样 极 
大 地 增强 了 替换 运算 符 的 能 力 ， 同 时 修正 了 之 前 版 本 中 的 一 些 与 回 济 
相关 的 bug。 也 添加 了 {min，max} 区 间 量 词 。 虽 然 很 不 对 ， 这 些 量词 不 
能 保证 在 任何 情况 下 都 可 以 正常 工作 。 还 有 ， 这 时 候 Perl 的 正则 引擎 
本 不 应 该 停留 在 只 处 理 8 位 编码 数据 的 水 平 ， 但 是 面 对 非 ASCII 输 入 
时 ， 会 产生 无 法 预料 的 结 


Perl 4 的 发 布 是 在 一 年 半 以 后 ，1991 年 3 月 ， 在 接 下 来 的 两 年 间 ， 
Perl 4 一 直 在 改进 ， 直 到 1993 年 2 月 发 布 最 终 升 级 。 到 此 时 ， 之 前 的 bug 
已 经 修正 ， 原 有 的 限制 也 被 突破 (\D 之 类 可 以 应 用 在 字符 组 中 ， 而 括 
号 的 数目 也 不 再 有 限制 ) ， 正 则 引擎 也 花 了 很 多 功夫 来 优化 ， 不 过 真 
正 的 突破 是 在 1994 年 。 

Perl 5 正式 发 布 于 1994 年 10 月 。 这 一 版 的 Perl 经 历 了 全 面 的 修整 ， 
在 各 个 方面 都 比 原来 强 上 许多 。 束 正则 表达 式 来 说 ， 它 进行 了 更 多 的 
内 部 优化 ， 添 加 了 少量 元 字符 (\G 增 强 了 和 迭代 匹配 的 能 力 呈 130) ` JË 
捕获 的 括号 (45) 、 忽 略 优先 (lazy) 的 量词 (141) 、 顺 序 环视 
功能 (>60) ， 以 及 /x 量 词 (@72) QE7) 。 

这 些 新 增 功能 的 意义 并 不 限于 功能 本 号 ， 更 重要 的 是 ， 这 些 “ 新 
增 ” 的 修改 使 正则 表达 式 本 号 成 为 一 种 强大 的 编程 语言 ， 并 为 它 提供 了 
进一步 的 发 展 空间 。 

新 增 的 非 捕 获 型 括号 和 顺序 环视 结构 都 需要 新 的 表达 方式 。 而 
(...) 一 [..]、<...> 和 {...} 都 已 经 有 了 含义 ， 所 以 Larry 采 用 了 我 们 今 
天 使 用 的 (? ;表示 法 。 这 个 表示 法 并 不 好 看 ， 不 过 在 之 前 的 Perl 正 则 
表达 式 中 这 是 不 合 规则 的 组 合 ， 所 以 添加 起 来 完全 没有 障碍 。Larry 也 
预见 到 ， 将 来 可 能 还 需要 新 增 其 他 的 功能 ， 所 以 他 对 (? ;之 后 的 字符 
做 了 限制 ， 这 样 葡 能 保留 某 些 字符 ， 用 于 将 来 更 多 的 功能 。 

之 后 的 各 版 Perl 越 来 越 健 壮 ， 错 误 越 来 越 少 ， 内 部 优化 越 来 越 
棒 ， 添 加 了 越 来 越 多 的 新 特性 。 我 相信 ， 本 书 的 第 一 版 也 为 此 做 了 小 
小 的 贡献 ， 因 为 副 人 研究 和 测试 了 正则 表达 式 相 关 的 特性 ， 并 将 结 采 
告知 Larry 和 Perl Porters group， 为 改进 提供 了 反馈 。 

后 来 添加 的 新 特性 包括 逆序 环视 功能 (60) , “固化 * 分 组 
(“atomic” grouping’? 139) ， 和 Unicode 支 持 。 新 添加 的 条 件 判 断 结构 
更 是 把 正则 表达 式 提升 到 了 一 个 新 的 层次 (140) ， 它 容许 用 户 在 正 
则 表达 式 中 进行 if-then-else 的 条 件 判 断 和 控制 。 如 果 这 些 还 不 够 强大 的 
话 ， 新 的 结构 甚至 容许 程序 员 在 正则 表达 式 中 运行 Perl RE, ENIK 
达 式 和 程序 代码 之 间 的 界限 已 经 不 复 存 在 了 (327) 。 本 书 中 使 用 的 
Perl 的 版 本 为 5.8.8。 

流派 的 部 分 整合 


具有 移 见 之 明 的 Perl 5 完全 兆 合 了 互联 网 章 命 的 节拍 。Perl 的 初 训 
是 文本 处 理 ， 而 Web 页 的 生成 其 实 正 是 文本 处 理 ， 所 以 Pen 迅速 成 为 了 
开发 Web 程 序 的 语言 。Pen 广 受 欢 迎 ， 其 中 强大 的 正则 流派 也 是 如 此 。 

其 他 语言 的 开发 人 员 当 然 不 会 视而不见 ， 最 终 在 某 种 程度 上 “兼容 
Perl” (Perl compatible) 的 正则 表达 式 包 出 现 了 。Tcl、Python、.NET、 
Ruby、PHP、C/C++ 都 有 各 目的 正则 表达 式 包 ，Java 语 言 中 还 有 多 个 正 
则 表达 式 包 。 

另 一 种 形式 的 整合 始 于 1997 年 〈 谈 巧 的 是 ， 本 书 的 第 一 版 也 在 当 
年 面世 ) ， 当 时 Philip Hazel 开 发 了 PCRE， 这 是 一 套 兼容 Perl 正 则 表达 
式 的 库 ，PCRE 的 正则 引擎 质量 很 高 ， 全 面 仿制 Perl 的 正则 表达 式 的 语 
法 和 语义 。 其 他 的 开发 人 员 可 以 把 PCRE 整合 到 目 己 的 工具 和 语言 
中 ， 为 用 户 提供 丰富 而 且 极 具 表 现 力 (也 是 众所周知 ) 的 各 种 正则 功 
能 。 许 多 流行 的 软件 都 使 用 了 PCRE， 例 如 PHP、Apache 2 ` Exim ` 
Postfix 和 和 Nmap ( 注 8) 。 

本 书 对 应 的 版 本 

表 3-2 列 出 了 本 书 中 使 用 的 工具 和 库 的 版 本 信息 。 更 老 的 版 本 可 能 
功能 更 少 ，bug 更 多 ， 新 的 版 本 则 会 提供 更 多 的 特性 ， 并 修正 之 前 的 
bug (当然 也 可 能 多 出 新 的 bug) 。 


表 3-2: 本 书 中 提 到 的 一 些 工具 的 版 本 


GNU awk 3.1 java.util.regex (JDK 1.5, 4" 5.0) Procmail 3.22 
GNU egrep/grep 2.5.1. | NET Framework 2.0 Python 2.3.5 
GNU Emacs 21.3.1 PCRE 6.6 Ruby 1.8.4 
flex 2.5.31 Perl 5.8.8 GNU sed 4.0.7 
MySQL 5.1 PHP (preg routine) 5,1.4/4.4.3 Tel 8.4 
ae 
最 初 印象 
At a Glance 


我 们 用 一 张 表 格 来 比较 第 见 工具 软件 在 几 方面 的 功能 ， 以 便 理 解 
仍然 存在 的 差异 。 表 3-3 提 供 了 大 干 工具 软件 的 正则 表达 式 所 属 流派 在 
各 方面 的 简要 信息 。 


EL At a J STE PS a Fil eae 
格 。 但 是 ， a Et TEN Ba, WA 
许多 重要 的 知识 

最 重要 的 是 程序 会 不 断 变 化 。 举 例 来 说 ，Tcl 以 前 是 不 文 持 反 向 引 
用 和 单词 分 界 符 的 ， 但 是 现在 文 持 。 最 开始 ， 用 来 表示 单词 分 界 和 从 的 
MEA AY: <: JME >: ]， 至 今 仍 是 这 样 ， 尽 管 这 种 表示 法 已 经 废 
弃 ， 取 代 它 的 是 后 来 添加 的 \m、\M 和 \y (单词 起 始 、 单 词 结束 ， 或 者 
MAE) 6 

同样 ，grep 和 egrep 并 没有 单一 的 作者 ， 只 要 愿意 ， 任 何人 都 可 以 
开发 ， 也 能 修改 到 符合 到 作者 期 望 的 任何 流派 。 人 人 都 布 望 按照 自己 
的 意愿 来 ， 人 性 就 是 如 此 〈 例 如 ， 许 多 常用 工具 的 GNU 版 本 ， 比 其 他 
版 本 更 强大 ， 也 更 健壮 ) 。 


表 3-3: 若干 常用 工具 的 Flavor 的 (非常 ) 简要 考察 


ee ee y 


V 表示 支持 

或 许 与 列 出 的 特性 一 样 重要 的 是 流派 之 间 的 许多 细微 (有 些 并 非 
细微 ) 差别 。 从 表格 来 看 ，Perl、.NET 和 Java 的 正则 表达 式 似乎 是 一 
样 的 ， 而 实际 情况 却 远 不 是 这 样 。 针 对 表 3-3， 读 者 可 能 提出 的 问题 包 
括 : 

e 星 号 之 类 的 量词 能 否 作 用 于 括号 之 内 的 子 表达 式 ? 

e 点 号 能 否 匹配 换行 符 ? 排除 型 字符 组 能 否 匹 配 换行 符 ? 以 上 两 者 
能 否 匹配 NUL 字符 ? 


j 目 


e 行 锁 点 (line anchor) 是 名 符 其 实 的 吗 (例如 ， 他 们 能 否 识 另 
(first- 


标 字 符 串 内 部 的 换行 符 ) ? 它们 算 正 则 表达 式 中 的 基础 级 别 
class) 的 元 字符 吗 ? 还 是 只 能 应 用 在 某 些 结构 中 ? 

e 字 符 组 内 部 能 出 现 转 义 字符 吗 ? 字符 组 内 部 还 容许 或 不 容许 出 现 
哪些 字符 ? 

ee SHB REIS? 如 果 是 ， 般 套 的 深度 是 否 有 限制 呢 (还 有 个 问 
题 是 ， 一 共 容 许 出现 多 少 括号 呢 ) ? 

e 如 条 容许 反 回 引用 ， 在 进行 不 区 分 大 小 写 的 匹配 时 ， 反 回 引 用 能 
顺利 进行 吗 ? 在 极端 的 情况 下 ， 反 向 引用 的 “行为 ”有 意义 吗 ? 

e 和 是 否 可 以 出 现 八 进 制 的 转 义 字符 \1239? 如 有 果 是 ， 怎 么 区 分 它 和 反 
回 引 用 呢 ? 十 六 进 制 的 转 义 字符 呢 ? 这 种 支持 是 正则 引擎 提供 的 ， 还 
是 由 其 他 工具 提供 的 ? 

e\w 只 文 持 数字 和 字符 ， 还 是 包括 其 他 字符 ? CR 3-3 列 出 的 文 持 
\w 的 工具 对 \w 有 不 同 的 解释 ) 。 不 同 的 单词 分 界 符 元 字符 对 构成 “单词 
分 界 符 ” 的 字符 的 定义 不 一 样 ，\w 是 否 与 它们 保持 一 致 ? 它们 是 按照 
locale 的 定义 昵 ， 还 是 文 持 Unicodey? 

即使 表 3-3 这 样 的 介绍 这 样 简 单 ， 我 们 仍然 必须 记得 这 些 问 题 。 如 
果 你 能 意识 到 ， 在 看 起 来 光鲜 的 外 表 下 面 潜藏 着 许多 问题 ， 束 容易 保 
持 清 桓 的 头脑 来 应 付 它 们 。 

在 本 章 开 头 我 们 已 经 提 到 ， 许 多 问题 只 是 语法 的 差异 ， 但 也 有 许 
多 并 非 如 此 。 比 方 说 ， 了 解 到 egrep 的 ” (JullJuly) | 在 GNU Emacs 中 必 
须 写 成 、 WuNJuly) | 之后， 你 或 许 会 认为 所 有 的 问题 都 是 这 样 ， 但 
事实 并 非 如 此 。 在 匹配 尝试 过 程 中 的 语义 差异 (或 者 ， 至 少 是 看 起 来 
是 在 匹配 尝试 过 程 中 的 ) 通常 被 忽视 ， 但 极其 重要 的 问题 是 ， 它 也 解 
释 了 为 什么 两 个 看 起 来 一 样 的 表达 式 会 获得 截然 不 同 的 结果 :一 个 总 
是 匹配 :Ju ， 即 使 目标 文本 是 "July'。 这 些 看 起 来 毫 无 区 别 的 语义 也 解 
释 了 ， 为 什么 两 个 顺序 相反 的 正则 表达 式 : 『 (Julya) ,入 \ 

(July\Jul\) ， 能 够 取得 同样 的 匹配 结果 。 其 实 ， 整 个 下 一 章 都 在 讲解 
这 类 问题 。 

当然 ， 一 球 工 具 软 件 能 够 利用 正则 表达 式 实 现 的 功能 ， 通 常 比 它 

所 属 的 正则 流派 更 重要 。 例 如 ， 束 算 Perl 的 正则 表达 式 功 能 不 及 egrep， 


在 使 用 正则 表达 式 时 ，Perl 所 具有 的 简便 性 却 更 有 价值 。 我 们 会 在 本 革 
逐个 介绍 各 种 特性 ， 并 在 后 面 各 章 深入 讲解 几 种 编程 语言 。 


正则 表达 式 的 注意 事项 和 处 理 方式 


Care and Handling of Regular Expressions 
本 章 开 头 列 出 的 第 二 点 需要 注意 的 就 是 : 正则 表达 式 的 句法 规则 
(syntactic packaging) ， 它 告诉 应 用 程序 :“ 嘿 ， 这 儿 有 一 个 正则 表达 

式 ， 我 需要 你 做 这 些 ”。egrep 是 一 个 简单 的 例子 ， 因 为 正则 表达 式 是 作 
为 命令 行 参 数 传 过 去 的 。 其 他 的 “语法 诀窍 (syntactic sugar) ”， 例 如 我 
在 第 1 章 坚 持 使 用 的 单 引号 ， 是 因为 考虑 到 shell， 而 不 是 egrep。 复 杂 的 
系统 ， 例 如 程序 设计 语言 中 的 正则 表达 式 ， 需 要 更 多 的 包装 ， 系 统 
能 知道 哪些 部 分 是 正则 表达 式 ， 需 要 如 何 处 理 。 

下 一 步 是 考察 我 们 能 够 对 匹配 结果 进行 的 操作 。 同 样 ，egrep 在 这 
方面 很 简单 ， 因 为 它 做 的 都 是 同样 的 事情 (显示 包含 匹配 文本 的 
行 ) ， 但是， 我 们 在 前 一 章 的 开头 已 经 说 过 ， 真 正 有 意义 的 是 更 复杂 
的 操作 。 其 中 最 基本 的 是 匹配 (检查 一 个 正则 表达 式 是 否 能 匹配 一 个 
字符 串 ， 或 者 从 字符 串 中 提取 信息 ) ， 以 及 查找 和 替换 ， 根 据 匹 配 的 
结果 修改 字符 串 。 这 些 操 作 可 以 以 多 种 形式 进行 ， 不 同 的 语言 对 此 也 
有 不 同 的 规定 。 

一 般 来 说 ， 程 序 设计 语言 有 3 种 处 理 正 则 表达 式 的 方式 : 集成 式 

(integrated) 、 程 序 式 (procedural) 和 面向 对 象 式 ( object- 
oriented) 。 在 第 一 种 方式 中 ， 正 则 表达 式 是 直接 内 建 在 语言 之 中 的 ， 
Perl 束 是 如 此 。 但 是 在 其 他 两 种 方式 中 ， 正 则 表达 式 不 属于 语言 的 低级 
语法 。 相 反 ， 普 通 的 函数 接收 普通 的 字符 串 ， 把 它们 作为 正则 表达 式 
进行 处 理 。 由 不 同 的 函数 进行 不 同 的 、 关 系 到 一 个 或 多 个 正则 表达 式 
的 操作 。 大 多 数 语 言 (不 包括 Perl) 采用 的 都 是 这 两 种 方式 之 一 ， 包 括 
Java ~ .NET ~ Tcl 、~ Python ~ PHP 、 Emacs 、 lisp 和 Ruby ° 


集成 式 处 理 


Integrated Handling 
我 们 已 经 看 过 Perl 的 集成 式 处 理 方法 ， 例 如 第 55 页 的 例子 : 


if ($line =~m/*Subject: (.*)/i) { 
$subject = $1; 


} 

为 清楚 起 见 ， 我 用 斜体 标注 变量 名 ， 正 则 表达 式 相 天 的 部 分 则 用 
粗 体 标注 ， 正 则 表达 式 本 身 用 下 男 线 标注 。Perl 会 把 正则 表达 式 
ASubject: - (x) , 应 用 到 $line 保存 的 文本 中 ， 如 果 能 够 匹配 ， 则 执 
行 下 面 的 程序 段 。 其 中 ， 变 量 $1 代 表 括 号 内 的 子 表 达 式 匹配 的 文本 ， 
将 它们 赋值 给 $subject ° 

男 一 个 集成 式 处 理 的 例子 是 把 正则 表达 式 作 为 配置 文件 的 一 部 
分 ， 例 如 procmail (Unix 下 的 一 个 邮件 处 理 程序 。 在 配置 文件 中 ， 
正则 表达 式 用 于 将 邮件 信息 发 布 到 对 应 的 处 理 程序 中 。 这 个 例子 比 Perl 
更 简单 ， 因 为 不 需要 指明 操作 对 象 邮件 信息 ) 。 

这 两 个 例子 背后 的 原理 要 复杂 一 些 。 集 成 式 处 理 方法 减轻 了 程序 
员 的 负担 ， 因 为 它 隐 藏 了 一 些 工作 ， 例 如 正则 表达 式 的 预 处 理 ， 准 备 
匹配 ， 应 用 正则 表达 式 ， 返 回 结果 。 省 上 略 这 些 操 作 减 轻 了 常见 任务 的 
完成 难度 ， 不 过 我 们 之 后 将 会 看 到 ， 有 些 情 况 下 ， 这 样 处 理 反 而 更 
慢 ， 更 复杂 。 

不 过 ， 在 深入 细 刷 之前， 我 们 先 打 量 打 量 其 他 的 处 理 方式 ， 然 后 
再 来 揭示 这 些 被 隐藏 的 步骤 。 


程序 式 处 理 和 面向 对 象 式 处 理 


Procedural and Object-Oriented Handling 

程序 式 处理 和 面向 对 象 式 处 理 非 常 相似 。 这 两 种 方式 下 ， 正 则 功 
能 不 是 由 内 建 的 操作 符 来 提供 ， 而 是 由 普通 函数 《函数 式 ) 或 构造 函 
数 及 方法 (面向 对 象 式 ) 来 提供 的 。 这 种 情况 下 ， 并 没有 专属 于 正则 
表达 式 的 操作 符 ， 只 有 平常 的 字符 串 ， 普 通 的 函数 、 构 造 画 数 和 方法 
把 这 些 字符 串 作为 正则 表达 式 来 处 理 。 

下 面 几 节 给 出 了 几 个 Java、VB.NET、PHP 和 Python 的 例子 。 

Java 中 的 正则 处 理 

现在 来 看 “Subject" 例 子 在 Java 中 的 实现 方式 ， 使 用 Sun 提 供 的 


java.util.regex 包 〈 第 8 章 详细 介绍 Java) ° 


import java.util.regex.*; // 这 样 使 用 regex 包 中 的 类 更 加 容易 


0 Pattern r = Pattern.compile("<Sujbcet: 


.*)”, Pattern.CASE INSENSITIVE) ; 


èe Matcher m = r.matcher (line); 
+ if (m.find()) { 
+ subject = m.group(1); 


我 仍然 用 斜体 标注 变量 名 ， 粗 体 标 注 正 则 表达 式 相 关 的 元 素 ， 下 
画 线 标注 正则 表达 式 本 身 。 谁 确 地 说 ， 是 用 下 画 线 标注 表示 作为 正则 
表达 式 处 理 的 普通 的 字符 串 。 

这 个 类 说 明了 面向 对 象 式 处 理 方 法 ， 它 使 用 Sun 提 供 的 
java.utilregex 包 的 两 个 类 一 一 Pattern 和 Matcher。 其 中 执行 的 操作 有 : 

0 检查 正则 表达 式 ， 将 它 编译 为 能 进行 不 区 分 大 小 匹配 的 内 部 形式 

(internal form) ， 得 到 一 个 “Pattern” 对 象 。 

o 将 它 与 欲 匹配 的 文本 联系 起 来 ， 得 到 一 个 “Matcher” 对 象 。 

= 应 用 这 个 正则 表达 式 ， 检 查 之 前 与 之 建立 联系 的 文本 ， 是 否 存在 
匹配 ， 退 回 结果 。 

关 如果 存在 匹配 ， 提 取 第 一 个 捕获 括号 内 的 子 表达 式 匹 配 的 文本 。 

任何 使 用 正则 表达 式 的 语言 都 需要 进行 这 些 操 作 ， 或 是 显 式 的 

(explicitly) 或 是 隐 式 的 (implicitly) ° Perki T KZH, Java 
ASEM TT SUM SR BR KE To 

函数 式 处 理 的 例子 。 不 过 ，Java 也 提供 了 一 些 函 数 式 处 理 的 “便捷 
函数 (convenience functions) ”来 节省 工作 量 。 用 户 不 再 需要 首先 声称 
一 个 正则 表达 式 对 象 ， 然 后 使 用 该 对 象 的 方法 来 操作 。 下 面 的 静态 函 
数 提 供 了 临时 对 象 ， 执 行 完 之 后 ， 这 些 对 象 束 会 被 自动 抛 充 。 这 个 例 
子 用 来 说 明 Pattern.matches (...) EKAaX: 


if (! Pattern.matches("\\s*", line) ) 
{ 
// ... 如 果 line RAZM ... 


} 
这 个 画 数 包装 了 一 个 隐 式 的 '^...$ | 的 正则 表达 式 ， 返 回 一 个 
Boolean 值 ， 说 明 它 是 否 能 够 匹配 输入 的 字符 串 。Sun 的 package 同 时 所 


供 程序 式 和 面向 对 象 式 的 处 理 方式 是 常见 的 做 法 。 两 种 接口 的 差别 在 
于 便捷 程度 (程序 式 处 理 方式 在 完成 简单 任务 时 更 容易 ， 但 处 理 复杂 
任务 则 很 麻烦 ) 、 功 能 (程序 式 处 理 方式 的 功能 和 选项 通常 比 对 应 的 
面向 对 象 式 的 要 少 ) 和 效率 (在 任何 情况 下 ， 两 类 处 理 方式 的 效率 都 
不 同一 一 第 6 章 详 细 论 述 这 个 问题 ) 。 
Sun 有 时 也 会 把 正则 表达 式 整 合 到 Java 的 其 他 部 分 ， 例 如 上 面 的 
例子 可 以 使 用 string 类 的 matches 功 能 来 完成 : 
if (! line.matches("\\s*", ) ) 
{ 
// ... 如 果 1ine 不 是 空 行 ... 
} 
同样 ， 这 种 办 法 不 如 合理 使 用 面向 对 象 的 程序 有 效率 ， 所 以 不 适 
宜 在 对 时 间 要 求 很 高 的 循环 中 使 用 ， 但 是 “随手 (casual) ”用 起 来 非常 
方便 。 
VB 和 .NET 语 言 中 的 正则 处 理 
尽管 所 有 的 正则 引擎 都 能 执行 同样 的 基本 操作 ， 但 即使 是 采用 同 
样 方法 的 各 种 实现 方式 (implementation) 提供 给 程序 员 完 成 的 任务 ， 
以 及 使 用 服务 的 方式 也 各 有 不 同 。 下 面 是 VB.NET 中 的 “Subject”*” 例 子 
(.NET 在 第 9 章 详细 论述 ) : 
Imports System.Text.RegularExpressions ' 这 样 访问 正则 表达 式 的 类 会 更 方便 


Dim R as Regex = New Regex("“Subject: (.*)", RegexOptions.IgnoreCase) 
Dim M as Match = R.Match(line) 
If M.Success 

subject = M.Groups(1) .Value 
End If 
ARH, ERR aval MIF, Are. NETH 0 AB =a BK 
一 步 ， 第 z 步 需要 一 个 确定 的 值 。 为 什么 会 有 这 样 的 差异 ? 两 者 并 没有 
本 质 上 的 优 和 劣 之 分 一 一 只 是 开发 人 员 采 用 了 目 己 当时 狗 得 最 好 的 方式 

( 稍 后 我 们 会 看 到 这 点 ) 。 

.NET 同 样 提供 了 若干 程序 式 处 理 的 琅 数 。 下 面 的 代码 用 于 判断 空 

T: 


If Not Regex.IsMatch(Line, "*\s*$") Then 
' ol... 如 果 1line 不 是 空 行 . . . 
End If 


Java 的 Pattern.matches 画 数 会 自动 在 正则 表达 式 两 端 添 加 ^.… 
$ ， 微 软 则 提供 了 更 为 一 般 的 函数 。Java 的 做 法 只 是 对 核心 对 象 的 简 
单 包装 ， 但 程序 员 需 要 使 用 的 字符 和 变量 更 少 ， 而 代价 只 是 一 点 点 性 
能 下 降 。 

PHP 中 的 正则 处 理 

下 面 是 使 用 PHP 的 preg 套 件 中 的 正则 表达 式 函 数 处 理 Subject, 的 
例子 ， 这 是 纯粹 的 函数 式 方法 〈 第 10 章 详细 介绍 PHP) 。 


if (preg_match('/*Subject: (.*)/i', $line, $matches) ) 
$Subject = $matches[l1]; 
Python 中 的 正则 处 理 


最 后 我 们 来 看 Python 中 | Subject | HAF, Python HAY th Æ M [al 
对 象 式 的 办 法 。 


import re; 


R = re.compile("“Subject: (.*)", re.IGNORECASE) ; 
M = R.search (line) 
if M: 


subject = M.group (1) 

这 个 例子 与 我 们 之 前 看 过 的 非常 类 似 。 

差异 从 何 而 来 

为 什么 不 同 的 语言 采用 不 同 的 办 法 呢 ? 可 能 有 语言 本 身 的 原因 ， 
不 过 最 重要 的 因素 还 是 正则 软件 包 的 开发 人 员 的 思维 和 技术 水 准 。 举 
例 来 说 ，Java 有 许多 正则 表达 式 包 ， 因 为 这 些 作者 都 希望 提供 Sun 未 
提供 的 功能 。 每 个 包 都 有 目 己 的 强项 和 弱项 ， 不 过 有 趣 的 是 ， 每 个 软 
件 包 的 功能 设 定 都 不 一 样 ， 所 以 Sun 最 终 决定 自己 提供 正则 表达 式 包 。 

另 一 个 关于 这 种 差异 的 例子 是 PHP，PHP 包含 了 三 种 完全 独立 的 
正则 引擎 ， 每 一 种 都 对 应 一 套 上 自己 的 函数 。PHP 的 开发 人 员 在 开发 过 
程 中 ， 因 为 对 原 有 的 功能 不 满意 ， 添 加 新 的 软件 包 和 对 应 的 接口 函数 


套件 来 升级 PHP 核心 (一 般 认为 ， 本 书 讲解 的 “preg” 套 件 是 最 优秀 
Hy) e 


查找 和 替换 


A Search-and-Replace Example 

“Subject” 的 例子 太 简 单 ， 还 不 足以 说 明 3 种 方法 之 间 的 差异 。 在 本 
我 们 将 看 到 更 复 洒 的 例子 ， 它 进一步 掏 示 了 不 同 处 理 方式 在 设计 上 
的 差异 。 

在 前 一 章 ， 我 们 看 到 了 在 Perl 中 利用 查找 和 替换 将 E-mail 地 址 转换 
为 超 链 接 的 例子 (73) : 

Stext =~ s{ 

\b 


# 把 捕获 的 地 址 保存 到 $1 ... 
( 


\w[-.\w] * # username 
@ 
[-\w]+(\.[-\w]+) *\. (com|edu|info) # hostname 
) 
\b 


}{<a href="mailto:$1">$1</a>}gix; 
Perl 的 查找 和 替换 操作 符 是 “ 原 地 生效 ”的 ， 也 就 是 说 ， 替 换 会 在 目 
标 变 量 上 进行 。 其 他 大 多 数 语言 的 奉 换 都 是 在 目标 文本 的 副本 上 进行 
的 。 如 果 不 需 要 修改 原 变量 ， 这 样 操 作 就 很 方便 ， 不 过 如 果 需 要 修改 
原 变 量 ， 就 得 把 蔡 换 结果 回 传 给 原 变 量 。 下 面 给 出 了 一 些 例子 。 
Java 中 的 查找 和 替换 
下 面 是 使 用 Sun 提 供 的 java.util.regex 进 行 查找 -替换 的 例子 : 


import java.util.regex.*; // 一 次 性 导入 所 有 需要 用 到 的 类 


Pattern r = Pattern.compile( 


nn\\b \n"4 
"# 把 横 获 的 地 址 保存 到 $1 ... \n"+ 
"( \n"+4 
" \\w[-.\\w]* # username \n"+ 
" 和 \n"4 
"  f=\\w)+(\\. [-\\w] +) *\\. (com|edu| info) # hostname \n"+ 
" ) \ n " 十 


w\\. \ " 
\\b \n", 


Pattern.CASE INSENSITIVE|Pattern.COMMENTS) ; 
Matcher m = r.matcher(text); 
text = m.replaceAll("<a href=\"mailto:$1\">$1</a>") ; 


请 注意 ， 字 符 串 中 的 每 个 人 都 必须 转 义 为 PO, WRK 
本 例 中 一 样 用 文本 字符 串 来 生成 正则 表达 式 ，“\w,， 就 必须 写成 \w’。 
在 调试 时 ，System.out.printtn (rpattern () ) 可 以 显示 正则 函数 确切 接 
收 到 的 正则 表达 式 。 我 在 这 个 正则 表达 式 中 包括 换行 符 的 原因 是 ， 这 
样 看 起 来 很 清楚 。 男 一 个 原因 是 ， 每 个 # 引 入 一 段 注 释 ， 直 到 该 行 结 
束 ， 所 以 ， 为 了 约束 注释 ， 必 须 设 定 某 些 换行 符 。 

Perl 使 用 /g、/i、/x 之 类 的 符号 来 表示 特殊 的 条 件 (这 些 修饰 符 分 别 
代表 全 局 兰 换 、 不 区 分 大 小 写 和 宽松 排列 模式 135) ，java.util.regex 
则 使 用 不 同 的 函数 (replaceAl 而 不 是 replace) ， 以 及 给 函数 传递 不 同 
的 标志 位 (flag) 参数 (例如 Pattern.CASE_INSENSITIVE 和 
Pattern.COMMENTS) 来 实现 。 


VB.NET 中 的 查找 和 替换 
VB.NET 的 程序 与 Java 的 类 似 : 


Dim R As Regex = New Regex 


("\b $ 

" (?# 将 捕获 的 地 址 保存 到 $1... ) 是 入 
Ri p & = 
" \w[-. \w] * (?# username) i: 梳 ， _ 
"œ " & 

" [{-\w]+(\.[-\w]+)*\.(com|edu|info) (?# hostname) " & p 
ny a & = 
"\b " 


RegexOptions.IgnoreCase Or RegexOptions.IgnorePatternWhitespace) 
text = R.Replace(text, "<a href=""mailto:${1}"">${1}</a>") 


因为 VB.NETI 的 字符 串 文 字 (literal) 不 便于 操作 (它们 不 能 跨越 
多 行 ， 也 很 难 在 其 中 加 入 换行 符 ) ， 长 一 点 的 正则 表达 式 使 用 起 来 不 
如 其 他 语言 方便 。 另 一 方面 ， 因 为 瀛 不 是 VB.NET 中 的 字符 串 的 元 字 
符 ， 这 个 表达 式 看 起 来 要 更 清楚 些 。 双 引号 是 VB.NET 字符 串 中 的 元 
字符 ， 为 了 表示 这 个 字符 ， 我 们 必须 使 用 两 个 紧 挨 着 的 双 3 引 号 。 
PHP 中 的 查找 和 替换 
下 面 是 PHP 中 的 查找 和 替换 的 例子 : 
text = preg replace('{ 
\b 
# 把 捕获 的 地 址 保存 到 $1 .. 
( 
\w[-.\w]* # username 
@ 
[-\w]+(\.[-\w] +) *\. (com|edu| info) # hostname 
) 
\b 
}ix', 
'<a href="mailto:$1">$1l</a>', # replacement F4 $ 
$text); 
wt RJava 和 VB.NET 一 样 ， 但 找 和 替换 操作 的 结果 必须 回 传 给 
$text， 除 去 这 一 点 ， 这 个 例子 和 Perl 的 很 相似 。 


其 他 语言 中 的 查找 和 替换 


Search and Replace in Other Languages 

下 面 我 们 人 简要 看 看 其 他 传统 工具 软件 和 语言 中 人 查找 和 替换 的 例 
子 。 

Awk 

Awk 使 用 的 是 集成 式 处 理 方法 ，mregex/， 来 匹配 当前 的 输入 行 ， 使 
用 “var 一 .…” 来 匹配 其 他 数据 。 你 可 以 在 Perl 中 看 到 这 种 匹配 表示 法 的 
影子 (不 过 ，Perl 的 替换 操作 符 模 仿 的 是 sed) 。Awk 的 早期 版 本 不 文 
持 正则 表达 式 蔡 换 ， 不 过 现在 的 版 本 提供 了 sub 〈.…) 操作 符 。 

sub(/mizpel/, " misspell " ) 

它 会 把 正则 表达 式 “mizpel | 应 用 到 当前 行 ， 将 第 一 个 匹配 替换 为 
misspel。 请 注意 ， 在 Perl (和 sed) 中 的 对 应 做 法 是 s/mizpel/misspell/。 

如 果 要 对 该 行 的 所 有 匹配 文本 进行 蔡 换 ，Awk 使 用 的 不 是 /g 修 饰 
符 ， 而 是 另 一 个 运算 符 : gsub (/mizpel/, “misspell”) 

Tcl 

Tcl 采 用 的 是 程序 式 处 理 方 法 ， 对 不 熟悉 Tel 引用 惯例 (quoting 
conventions) 的 人 来 说 可 能 很 迷惑 。 如 有 果 我 们 要 在 Tcl 中 修正 错误 的 拼 
写 ， 可 以 这 样 : 


regsub mizpel Svar misspell newvar 


它 会 检查 变量 var 中 的 字符 串 ， 把 "mizpel | 的 第 一 处 匹配 替换 为 
misspell ， 把 替换 后 的 字符 串 存 入 变量 newvar (这 个 变量 并 没有 以 $ 开 
L) 。Tal 接收 的 第 一 个 参数 是 正则 表达 式 ， 第 二 个 参数 是 目标 字符 
串 ， 第 三 个 是 replacement 字符 串 ， 第 四 个 是 目标 变量 的 名 字 。Tcl 的 
regsub 同 样 可 以 接收 可 能 出 现 的 标志 位 ， 例 如 -al 用 来 进行 全 局 符 换 ， 
而 不 是 只 替换 第 一 处 匹配 文本 。 


regsub -all mizpel, $var misspell newvar 


同样 ，-nocase 选 项 告诉 正则 引擎 进行 不 区 分 大 小 写 的 匹配 ( 它 等 
于 egrep 的 -i 参数 ， 或 者 Perl 的 /i 修饰 符 ) 
GNU Emacs 


GNU Emacs (下 文中 简称 Emacs) 是 功能 强大 的 文本 编辑 器 ， 它 可 
以 使 用 elisp (Emacs lisp) 作为 内 建 的 编程 语言 。 它 提供 了 正则 表达 式 
的 程序 式 处 理 接口 ， 以 及 数量 众多 的 函数 来 提供 各 种 服务 。 其 中 主要 
的 一 种 是 “正则 表达 式 搜索 -前 进 (re-search-forward) ”， 接 收 参 数 为 普 
通 字 符 串 ， 将 它 作 为 正则 表达 式 来 处 理 。 然 后 从 文本 的 “当前 位 置 * 开 
始 搜 索 ， 直 到 第 一 处 匹配 发 生 ， 或 者 如 果 没 有 匹配 ， 束 一 直 前 进 到 字 
符 串 的 末尾 (用 户 调用 编辑 器 的 “正则 表达 式 搜索 (regexp search) ”的 
功能 时 ， 就 会 执行 re-search-forward) 

如 表 3-3 (92) 所 示 ，Emacs 所 属 的 正则 流派 严重 依赖 反 斜 线 。 
例如 ， \<\ (az) \ (N< MI> A> | 是 查找 重复 单词 
的 表达 式 ， 可 以 用 来 解决 第 1 章 的 问题 。 但 我 们 不 能 直接 使 用 这 个 正 
则 表达 式 ， 因 为 Emacs 的 正则 引擎 不 能 识别 和 \n。 不 过 Emacs 中 的 双 引 
号 字符 串 则 可 以 ， 它 会 把 这 些 标记 转换 为 我 们 需要 的 制 表 符 和 换行 
符 ， 传 给 正则 引擎 。 在 使 用 普通 字符 串 提 区 正则 表达 式 时 ， 非 常 有 
用 。 但 其 缺陷 一 一 尤其 是 elisp 的 正则 表达 式 的 缺陷 一 一 在 于 ， 此 流派 
过 分 依赖 反 斜 线 了 ， 最 终 得 到 的 正则 表达 式 好 像 插 满 了 牙签 。 下 面 是 
查找 下 一 组 重复 单词 的 函数 : 


(defun FindNextDbl () 


"move to next doubled word, ignoring <“”> tags" (interactive) 
(re-search-forward "\\<\\[a-z]+\\)\\([\n \t)]\\1<[*>] +>\\) +\\1\\>" 
nee R a s E 


) 

这 Po f Fe 加 E ( define-key global-map " \C-x\C-d 
" 'FindNextDbl) ， 就 可 以 使 用 “Control-x+Control-d” 来 迅速 查找 重复 单 
词 了 。 


注意 事项 和 处 理 方式 : 小 结 


Care and Handling:Summary 

我 们 已 经 看 到 ， 函 数 很 多 ， 内 部 的 机 制 也 很 多 。 如 果 你 不 熟悉 这 
些 语言 ， 可 能 现在 还 有 些 困 惑 。 不 过 请 不 必 担 心 。 学 习 任 何 特定 的 工 
具 软 件 都 比 学 习 原 理 要 容易 。 


字符 串 ， 字 符 编 码 和 匹配 模式 


Strings,Character Encodings,and Modes 

在 深入 讲解 常见 的 各 类 元 字符 之 前 ， 还 需要 了 解 一 些 重要 的 问 
题 : 作为 正则 表达 式 的 字符 串 ， 字 人 符 编码 和 匹配 模式 。 

这 些 概念 并 不 复杂 ， 在 理论 和 实践 中 都 是 如 此 。 不 过 ， 对 其 中 的 
大 多 数 来 说 ， 因 为 各 种 实现 方式 之 间 存 在 细小 差异 ， 我 们 很 难 预先 知 
道 它 们 准确 的 实际 使 用 方式 。 下 一 市 泗 盖 了 铬 干 你 将 面 对 的 常见 问 
题 ， 以 及 一 些 复杂 的 问题 。 


作为 正则 表达 式 的 字符 串 


Strings as Regular Expressions 

这 个 概念 并 不 复杂 : 对 除 Perl ` awk ` sed 之 外 的 大 多 数 语言 
说 ， 正 则 引擎 接收 的 是 以 普通 字符 串 形式 提供 的 正则 表达 式 ， 这 些 字 
符 串 文字 类 似 “^From: (x) ”。 对 大 多 数 程序 员 ， 尤 其 新 入 行 的 程序 
员 来 说 ， 有 一 点 难以 理解 : 在 构造 作为 正则 表达 式 的 字符 串 时 ， 他 们 
还 需要 留意 编程 语言 定义 的 字符 串 元 字符 。 

每 种 语言 的 字符 串 文字 都 规定 了 目 己 的 元 字符 ， 有 些 语言 其 至 包 
舍 了 多 种 字符 串 文 字 ， 所 以 不 存在 但 适 性 的 规则 ， 不 过 背后 的 概念 是 
一 样 的 。 许 多 语言 的 字符 串 文 字 能 够 识别 转 义 序列 ， 例 如 、N 和 
2A， 在 生成 字符 串 对 应 的 数据 时 ， 会 正确 地 解释 这 些 记 号 。 与 正则 
表达 式 相 关 的 最 常见 的 一 点 就 是 ， 在 字符 串 文字 中 ， 必 须 使 用 两 个 紧 
换 在 一 起 的 反 笠 线 才 能 表示 正则 表达 式 中 的 反 斜 线 。 例 如 ， 为 了 表示 
正则 表达 式 中 的 Nn, DEFAR PEA "n" o 

如 果 忘 了 添加 反 斜 线 ， 而 只 是 使 用 " nm" ， 在 大 多 数 语 言 中 ， 结 果 
加 恰好 等 于 nn， (译注 2) 。 不 过 ， 事 实 上 ， 如 果 正 则 表达 式 是 宽松 
排列 格式 的 /x 类 型 ， 加 ,被 解释 为 空 ， rm 仍然 留 在 正则 表达 式 中 ， 匹 
配 一 个 空 行 。 起 记 这 一 点 的 程序 员 真 该 打 。 下 面 的 表 3-4 列 出 了 一 些 包 
括 Y 和 \x2A (2A 是 “大 :符号 的 ASCII 编 码 ) 的 例子 。 表 格 中 的 第 二 对 例 
子 展示 了 忽略 字符 串 文 字 元 字符 会 导致 的 意外 结 


表 3-4: REF HRMS NTRS 


作为 正则 表达 式  [\t\x2A] C \t\x2A 
TIT 制 表 符 和 之 后 的 星 号 
在 /x 模式 下 | 星 号 或 制 表 符 | 星 号 或 制 表 符 a | 制 表 符 和 之 后 的 星 号 


语言 不 同 ， 字 符 串 文字 也 不 相同 ， 不 过 有 的 差异 大 到 连 们 都 不 算 
元 字符 。 例 如 ，VB.NET 的 字符 串 文字 只 有 一 个 元 字符 ， 就 是 双 3 引 号 。 
下 一 节 介 绍 了 几 种 常用 语言 的 字符 串 文 字 。 无 论 规定 如 何 ， 我 们 在 使 
用 时 都 不 要 了 乐 记 考虑 “在 编程 语言 的 字符 串 处 理 结束 之 后 ， 正 则 引擎 接 
收 到 的 是 什么 ? ” 

Java 的 字符 串 

Java 的 字符 串 跟 上 面 提 到 的 很 类 似 ， 它 们 由 双 引 号 标注 ， 反 笠 线 
是 元 字符 。 文 持 常 见 的 字符 组 合 ， 例 如 Ab 〈 制 表 符 ) `w (换行 
FF) > NV 〈 反 斜 线 本 身 ) 。 字 符 串 中 出 现 未 获 文 持 的 反 斜 线 转 义 序列 


“\\t\\x2a" 


s4 WE 
\t\x2zA 


VB.NET 的 字符 串 

VB.NET 中 的 字符 串 同 样 是 由 双 引 号 标注 的 ， 不 过 它们 与 Java 的 字 
符 串 有 很 大 差别 。VB.NET 的 字符 串 只 能 识别 一 个 元 字符 :两 个 连续 的 
双 引 号 ， 代 表 字 符 串 中 的 双 3 引 号 。 例 如 "he said” "hi" "\." 的 值 就 
是 hesaid "hi" \j ° 

CHF 

尽管 微软 的 .NET Framework 中 所 有 语言 在 内 部 共享 同一 台 正 则 引 
擎 ， 但 创建 正则 表达 式 时 它们 有 各 目的 规定 。 我 们 刚刚 看 到 ，Visual 
Basic 的 字符 串 文 字 非 常 简 单 。 与 之 不 同 ，C 世 语言 有 两 种 类 型 的 字符 
PNF -° 

CHMPSSCPRUN E LN SFR, REAR ” ”而 不 
E" RERNI S o p, CHELETE (verbatim 
strings) ”( 译 注 3) ， 其 形式 为 @ "..……"”。 原 生字 符 串 不 能 识别 反 和 斜 线 
序列 ， 不 过 其 中 也 有 一 个 特殊 的 转 义 序列 : 一 对 双 引 号 表示 目标 字符 


串 中 的 一 个 双 引 号 。 也 就 是 说 ， 你 可 以 使 用 "NtNx2A ”或 者 @ " \t\x2A 
“来 生成 \tx2A，。 因 为 这 种 方式 很 简单 ， 一 般 都 用 @" ..." 的 原生 
字符 串 来 表示 正则 表达 式 。 

PHP 的 字符 串 

PHP 也 提供 了 两 种 类 型 的 字符 串 ， 不 过 无 一 与 C# 中 的 相同 。 在 
PHP 的 双 引 号 字符 串 中 可 以 使 用 常见 的 反射 线 序 列 一 一 例如 和 nm， 但 也 
可 以 像 Perl 那样 进行 变量 插值 (77) ， 还 可 以 使 用 特殊 的 序列 
{...}， 把 执行 花 括 号 内 代码 的 执行 结果 搬入 字符 串 。 

PHP 的 双 引 号 字符 串 的 独特 性 在 于 ， 你 可 能 倾向 于 在 正则 表达 式 
中 加 入 多 余 的 反 斜 线 ， 不 过 PHP 的 另 一 种 特性 能 够 缓解 这 种 现象 。 对 
Java 和 和 C 要 的 字符 串 文 字 来 说 ， 字 符 串 中 如 果 出 现 不 能 明确 识别 为 特殊 
字符 的 反 斜 线 序列 会 导致 错误 ， 而 在 PHP 的 双 引 号 字符 串 中 ， 这 种 序列 
会 原封 不 动 地 从 字符 串 中 传 过 来 。PHP 的 字符 串 能 够 识别 Y， 所 以 你 需 
BA wR “\t，， 不 过 如 果 使 用 Aw”， 我 们 仍然 得 到 “\w，， 因 为 
\w 不 属于 PHP 的 字符 串 能 够 识别 的 转 义 序列 。 这 个 额外 的 特性 ， 虽 然 有 
时 候 很 顺手 ， 也 增加 了 PHP 双 引号 字符 串 的 复杂 程度 ， 所 以 PHP 提 供 了 
更 加 简单 的 单 引 号 字符 串 。 

PHP HY 22.5 | 5 = 4 BAW VB.NETS 4 BACHAI@" ..." 字符 
串 ， 都 属于 “格式 整齐 的 〈unclut-tered) ”字符 串 ， 不 过 稍 有 不 同 。 在 
PHP 的 单 引 号 字符 串 中 ，\' 表 示 单 引号 ，\\ 表 示 反 和 斜 线 。 任 何其 他 字符 
(包括 任何 反 斜 线 ) 都 不 会 被 识别 为 特殊 字符 ， 而 会 被 当 作 字符 的 
值 。 也 就 是 说 ，Ntx2A' 创 建 NA) 。 因 为 单 引 号 字符 串 很 简单 ， 用 
它 来 表示 PHP 的 正则 表达 式 非常 方便 。 

PHP 的 单 引号 字符 串 在 第 10 章 有 详细 讲解 (445) 。 

Python 的 字符 串 

Python 提供 了 好 几 种 字符 串 文 字 。 单 引号 和 双 引 号 都 可 以 用 来 创建 
字符 串 ， 不 过 与 PHP 不 同 的 是 ， 这 两 种 方法 没有 区 别 。Python 也 提供 
了 “三 重 引 用 (triple-quoted) ”的 字符 串 ， 也 就 是 "..." 或 者 "”" "..." 
““"“ ,它们 可 以 包含 未 转 义 的 换行 符 。 这 4 种 类 型 都 支持 常用 的 反 斜 线 
序列 ， 例 如 \n， 不 过 和 PHP 一 样 ， 它 们 也 会 把 不 能 识别 的 反 斜 线 序 列 作 
为 纯 字 符 序列 来 对 待 。 而 在 Java 和 C 区 中 ， 这 些 序列 会 被 出 错 。 


SjPHPAICH# —}¥, Python EET AMEE NS, ite 
AFAR (raw string) ”。 它 类 似 CHAN@"...", Python 在 以 上 4 种 
表示 法 前 添加 "来 表示 纯 字 符 串 。 例 如 ，r " \tx2A "表示 \tx2A， 。 与 
其 他 语言 不 同 的 是 ， 在 Python HRSA, PAI RES TR 
留 ， 即 使 是 用 来 转 义 双 引 号 的 (所 以 双 引 号 可 以 保存 在 字符 串 中 ) 也 
是 如 此 : r" he said\" hi\" \." 表示 “he said\" hi\" \., 在 使 用 正则 表达 
式 时 ， 这 并 不 是 一 个 真正 的 问题 ， 因 为 Python 的 正则 表达 式 流派 把 

”识别 为 ” "”，， 不 过 如 果 你 喜欢 ， 你 可 以 忽略 这 些 细节 ， 使 用 这 4 
种 纯 字 符 串 中 的 任意 一 种 : rhe said "hi" \.' e 

Tc 中 的 字符 串 

Te 与 其 他 语言 都 不 一 样 ， 因 为 它 没 有 真正 的 字符 串 变 量 。 相 反 ， 
命令 行 被 分 解 成 < 单词 ”，Tcl 的 命令 把 这 些 单词 作为 字符 串 、 变 量 名 和 
正则 表达 式 ， 或 者 其 他 适合 的 类 型 。 因 为 命令 行 被 分 解 成 单词 ， 常 见 
的 反 斜 线 序列 ， 例 如 m， 能 够 识别 和 转换 ， 而 无 法 识别 的 反 斜 线 序列 则 
被 忽略 。 如 有 果 愿 意 ， 你 可 以 在 单词 两 端 添 加 双 引 号 ， 不 过 这 并 不 是 必 
须 的 ， 除 非 中 间 存 在 空格 。 

Tel 同样 也 有 和 类 似 Python 的 纯 字 符 串 类 似 的 原 字 符 串 类 型 ， 不 过 
Tal 使 用 花 括 号 {...}， 而 不 是 r'...'。 在 伦 括号 之 间 ， 除 \n 之 外 的 所 有 内 容 
都 会 原封 不 动 地 保存 下 来 ， 所 以 {Wtx2A} 表 示 \tx2A | ° 

在 花 括号 之 内 ， 你 可 以 按 自 己 的 意愿 添加 多 组 括号 。 非 舱 套 的 括 
号 必须 用 反 和 斜 线 转 义 ， 不 过 反 和 锋线 会 保留 在 字符 串 之 中 。 

Perl 的 正则 表达 式 文 字 

至 今 为 止 ， 我 们 曾 看 到 过 的 Perl 的 例子 中 ， 正 则 表达 式 都 是 以 文字 
方式 提供 的 (“正则 表达 式 文 字 (regular expression literals) ”) 。 不 
过 ， 我 们 也 可 以 用 字符 串 变量 提交 正则 表达 式 ， 例 如 : 

$str=~m/(\w+)/; 


也 可 以 这 样 : 


Sregex = '(\wt)'; 
Sstr =~ Sregex; 


Sregex = "(\\wt)"; 
Sstr =~ Sregex; 


(PE, BEALE AFAR AT ERA IRIES, 242, 348) ° 

对 于 以 文字 方式 提交 的 正则 表达 式 ，Perl 会 提供 一 些 额外 的 特性 ， 
包括 : 
e 变 量 插值 (把 变量 的 值 写 入 正则 表达 式 ) ° 
e 通 过 人 \Q...E， (113) 支持 文字 文本 。 
e 能 够 (optional) 支持 \N{name} 结 构 ， 这 样 就 能 通过 正式 的 
Unicode 名 来 指定 字符 。 例 

如 ， '\N{INVERTED EXCLAMATION MARK}Hola! ， 能够 匹配 
‘iHola!’ o 

在 Perl 中 ， 正 则 表达 式 文字 会 作为 特殊 的 字符 串 进 行 解析 。 实 际 
上 ， 这 些 特性 在 Penl 双 引号 字符 串 中 也 有 提供 。 必 须 说 明 的 一 点 是 ， 这 
些 特性 不 是 由 正则 引擎 提供 的 。 因 为 Perl 中 使 用 的 绝 大 多 数 正则 表达 
式 都 是 作为 正则 表达 式 文本 的 ， 许 多 人 认为 \Q..\E | 属于 Perl 的 正则 
表达 式 语言 ， 不 过 如 果 你 用 正则 表达 式 从 一 个 配置 文件 (或 者 命令 
ÍT) 读 入 数据 ， 知 道 哪 些 特性 是 由 语言 的 哪些 部 分 提供 的 就 很 重要 
了 o 


更 多 细 订 ， 请 参考 第 7 章 第 288 页 。 


Character-Encoding Issues 

字符 编码 是 一 种 写 明 的 共识 ， 它 规定 不 同 数值 的 字 节 应 该 如 何 解 
释 。 在 ASCI 编码 中 ， 值 为 十 进 制 110 的 字 广 代表 字符 ‘nm?， 不 过 在 
EBCDIC 编 码 中 代表 ‘>，。 为 什么 会 这 样 ? 因为 这 是 由 不 同 的 人 规定 
的 ， 没 有 明确 的 标准 判断 各 种 编码 的 优 务 。 字 节 的 值 是 一 样 的 ， 不 一 
样 的 是 解释 。 

ASCII 只 定义 了 单个 字 节 能 够 代表 的 所 有 数值 的 一 半 ，ISO-8859-1 
编码 (通常 称 为 <Latin-1 编 码 ") 填补 了 下 面 的 空间 ， 其 中 增加 了 读音 字 
符 (accented character) 和 特殊 符号 ， 因 而 能 够 被 更 多 的 语言 所 使 用 。 


对 这 种 编码 来 说 ， 值 为 十 进 制 数 234 的 字 节 被 解释 为 和， 而 在 ASCII 中 
没有 定义 。 

对 我 们 来 说 ， 重 要 的 问题 在 于 : 如 果 我 们 期 望 使 用 某 种 特定 编码 
的 数据 ， 程 序 是 否 会 这 样 做 ? 例如 ， 如 果 我 们 使 用 Latin-1 编 码 中 值 分 
别 为 234、116、101 和 115 的 4 个 字 节 (EREE Astes”) ， 我 们 期 望 
使 用 正则 表达 式 “A\w+$ | 或 者 “Ab 来 匹配 。 如 果 程序 中 的 \w 或 者 b 能 
够 支持 Latin-1 字 符 ， 就 可 以 正常 工作 ， 否 则 不 行 。 

编码 的 支持 程度 

编码 有 许多 种 ， 当 你 需要 关注 一 种 具体 的 编码 时 ， 你 需要 考虑 的 
重要 问题 包括 : 

e 程 序 能 够 识别 这 种 编码 吗 ? 

e 程 序 如 何 决定 采用 哪 种 编码 来 处 理 这 些 数据 ? 

e 正 则 表达 式 对 这 种 编码 的 支持 程度 如 何 ? 

编码 的 支持 程度 包括 若干 重要 的 问题 : 

o 是 否 能 够 支持 多 字 市 字符 ?点 号 和 [x] 之 类 的 表达 式 是 匹配 单个 
字符 ， 还 是 单个 字 节 ? 

e\WW、\d、\s、\b 之 类 的 元 字符 ， 是 否 能 识别 编码 中 的 所 有 字符 ? 例 
如 ， 虽 然 é 世 是 一 个 字符 ，\w 和 \b 能 处 理 吗 ? 

e 程 序 是 否 会 扩展 对 字符 组 的 解释 ? [a-z] 能 否 匹 配 é? 

e 不 区 分 大 小 写 的 匹配 是 否 能 对 所 有 字符 有 效 ? HI, MELA 
一 样 ? 

有 了 时候 事情 不 像 看 起 来 那么 简单 。 例 如 ，java.util.regex 包 的 \b 能 够 
正确 识别 Unicode 中 所 有 与 单词 相关 的 字符 ，\w 则 不 能 ( 它 只 能 匹配 
ASCII 中 的 字符 ) 。 我 们 会 在 本 章 的 其 他 部 分 看 到 更 多 的 例子 。 


Unicode 


Unicode 
Unicode 究 竟 是 什么 ， 似 乎 存在 许多 误解 。 从 最 基本 的 意义 上 说 ， 
Unicode 是 一 组 字符 设 定 ， 或 者 是 从 数字 和 字符 之 间 的 逻辑 映射 的 概念 


编码 。 例 如 ， 韩 语 字 符 人 针对 应 数字 49，333。 这 个 数值 ， 称 为 一 个 “ 代 
码 点 (code point) ”， 通 常用 十 六 进 制 来 表示 ， 以 “U+” 开 头 。49，333 
换算 成 十 六 进 制 是 COB5， 所 以 个 的 代码 就 是 U+COB5。 针 对 许多 字 
符 ，Unicode 还 定义 了 一 组 属性 ， 例 如 3 是 一 个 数字 ， 而 了 是 与 6 对 应 的 
大 写字 母 。 

目前 ， 我 们 还 没有 谈 到 这 些 数值 在 计算 机 上 是 如 何 编码 为 数据 
的 。 这 样 的 编码 方式 有 许多 ， 包 括 UCS-2 编 码 (所 有 的 字符 都 占用 两 个 
字 节 ) ，UCS-4 编 码 (所 有 字符 占用 4 个 字 节 ) ，UTF-16 (大 部 分 字符 
都 占用 两 个 字 节 ， 有 一 些 字符 占用 4 个 字 节 ) ， 以 及 UTF-8 编 码 (用 1 到 
6 个 字 节 来 编码 字符 ) 。 具 体 的 程序 内 部 到 底 使 用 哪 种 编码 通常 不 需要 
用 户 来 关心 。 用 户 只 需要 关心 如 何 将 外 部 数据 (例如 从 文件 读 入 的 数 
据 ) 从 已 知 的 编码 (ASCII、Latin-1、UTF-8 等 ) 转换 给 具体 的 程序 。 
支持 Unicode 的 程序 通常 提供 了 多 种 编码 和 解码 程序 来 进行 这 些 转换 。 

支持 Unicode 的 程序 中 的 正则 表达 式 通 常 支 持 \unum 元 序列 ， 用 来 
匹配 一 个 具体 的 Unicode 字 符 (117) 。 这 个 数值 通常 是 一 个 4 位 的 十 
六 进 制 数 ， 所 以 uC0B5 表 示 针 。 一 定 要 和 弄 清楚 的 是 ，\uC0B5 的 意思 
是 “匹配 编号 为 U+C0B5 的 Unicode 字 符 ”"， 而 没有 说 具体 需要 比较 哪些 
字 节 ， 因 为 具体 的 字 节 是 由 代表 这 个 Unicode 代 码 点 的 编码 方式 在 内 部 
决定 的 。 如 果 程 序 内 部 使 用 的 是 UTF-8 编 码 ， 这 个 字符 就 用 3 个 字 节 表 
示 。 不 过 使 用 支持 Unicode 程 序 的 用 户 ， 并 不 需要 关心 这 个 (也 有 了 时候 
需要 ， 例 如 使 用 PHP 的 preg 套 件 和 模式 修饰 符 u447) 。 

还 有 一 些 你 或 许 需 要 知道 的 相关 知识 ..……… 

字符 ， 还 是 组 合 字符 序列 

一 般 人 眼 里 的 “字符 ” (character) 并 不 都 会 被 Unicode 或 者 支持 
Unicode 的 程序 (或 者 正则 引 警 ) 看 作 一 个 字符 。 例 如 ， 有 人 或 许 认为 
ij 是 一 个 字符 ， 但 是 在 Unicode 中 ， 它 可 能 由 两 个 代码 点 构成 ，U+0061 
(a) 和 钝 重音 (grave accent) U+0300 (') 。Unicode 提 供 了 许多 组 合 
字符 (combining character) ， 用 来 修饰 (ZEA) 一 个 基本 字符 。 这 会 
给 正则 引擎 带 来 些 麻 烦 ， 例 如 ， 点 号 是 应 该 匹配 单个 代码 点 昵 ， 还 是 
整个 U+0061 和 U+0300? 


在 实践 中 ， 许 多 程序 似乎 把 “字符 "和 “代码 点 ” 视 为 等 价 ， 也 就 是 
说 ， 点 号 可 以 匹配 单个 的 代码 点 ， 无 论 是 基本 字符 还 是 组 合 字符 。 所 
bh, a (U+0061 加 上 U+0300) 能 够 由 A.S 匹配， 而 不 是 ^$| 。 

Perl 和 PCRE (以 及 PHP 的 preg 套 件 ) 支持 六 元 序列 ， 这 样 点 号 

(“匹配 单个 字符 ”) 就 能 够 匹配 一 个 结合 了 组 合 字 符 的 基本 字符 。 详 
见 第 120 页 。 

在 文 持 Unicode 的 编辑 器 中 输入 正则 表达 式 时 ， 一 定 要 记 住 组 合 字 
符 的 概念 。 如 果 一 个 带 音 调 的 字符 ， 例 如 A， 被 正则 表达 式 当 
作 ‘ 和 和 ‘“，， 很 可 能 无 法 匹配 字符 串 中 单个 代码 点 表示 的 A CRT 
论 单 代码 点 的 情况 ) 。 同 样 ， 对 正则 引擎 来 说 它 是 两 个 不 同 的 字符 ， 
所 以 “[...A...] | 在 字符 组 中 添加 了 两 个 字符 ， 等 于 \[...A*...]， 。 

同样 ， 如 果 两 个 代码 点 的 字符 一 一 例如 A 一 一 后 面 跟 有 一 个 量词 ， 
量词 作用 的 其 实 是 第 二 个 代码 点 ， 也 就 是 As+ | 。 

用 多 个 代码 点 表示 同一 个 字符 

从 理论 上 说 ，Unicode 应 该 是 代码 点 和 字符 之 间 的 一 一 映射 (译注 
4) ， 不 过 在 许多 情况 下 ， 一 个 字符 可 能 有 多 种 表现 方式 。 前 一 节 中 我 
们 看 到 a 可 以 表示 为 U+0061 加 上 U+0300。 不 过 ， 它 也 可 以 用 单个 代码 
点 U+00E0。 为 什么 会 出 现 这 种 情况 ?是 为 了 保证 Unicode 和 Latin-1 之 间 
转换 的 简易 性 。 如 果 我 们 有 需要 转换 为 Unicode 的 Latin-1 文 本 ，a 可 能 被 
转换 为 U+00E0。 不 过 ， 也 可 以 转换 为 Ut+0061 和 U+0300 的 组 合 。 通 
常 ， 这 种 转换 是 目 动 的 ， 用 户 无 法 干预 ， 不 过 Sun 的 java.util.regex 包 提 
供 了 一 种 特殊 的 匹配 符 ，CANON_EQ， 保 证 能 够 匹配 “在 规则 中 等 价 

(canonically equivalent) ”的 字符 ， 无 论 它们 在 Unicode 中 使 用 什么 存 
储 方式 (368) ° 

与 此 相关 的 问题 是 ， 不 同 的 字符 可 能 无 法 从 外 观 上 区 分 ， 如 果 需 
要 检查 生成 的 文本 ， 这 会 带 来 混乱 。 例 如 ， 罗 马 字 母 | (U+0049) 可 能 
与 I， 也 就 是 希腊 字母 Iota (U+0399) 混淆 。 这 个 字符 添加 希腊 语 冒 号 
之 后 得 到 1 或 者 1， 编 码 也 增加 到 4 种 (U+00CF; U+03AA; U+0049 
U+0308; U+0399 U+0308) 。 也 就 是 说 ， 如 果 需 要 匹配 1， 你 可 能 需要 
手动 指定 这 4 种 可 能 。 类 似 的 例子 还 有 许多 。 


还 有 许多 单个 字符 看 起 来 不 只 一 个 字符 。 例 如 Unicode 定义 了 一 
个 叫做 “SQUARE HZ” (U+3390) 的 字符 。 这 很 像 两 个 普通 字符 Hz 的 
ZH (U+0048 U+007A) ° 

尽管 Hz 之 类 的 特殊 字符 的 用 途 在 目前 非常 有 限 ， 但 在 将 来 ， 它 们 
的 应 用 肯定 会 增加 文本 处 理 程序 的 复杂 性 ， 所 以 在 处 理 Unicode 时 不 应 
了 乐 记 这 些 问 题 。 用 户 可 能 会 期 望 ， 处 理 这 样 的 数据 时 ， 必 须 能 够 处 理 
正常 空格 (U+0020) 和 非 换 行 空 格 (no-break spaces) (U+00A0) ， 
或 许 还 需要 包括 Unicode 中 其 他 的 成 打 的 空白 字符 之 中 的 任意 一 个 。 

Unicode 3.1+ 和 U+FFFF 之 后 的 代码 点 

Unicode Version 3.1 诞 生 于 2001 年 中 期 ， 增 加 了 U+FFFF 之 后 的 代码 
点 (之 前 版 本 的 Unicode 也 支持 这 些 代码 点 ， 但 是 在 Version 3.1 以 前 ， 
它们 都 是 没有 定义 的 ) 。 例 如 ， 代 表 首 乐谱 号 C (Clef) 的 字符 对 应 代 
码 点 U+1D121。 之 前 那些 仅 支 持 低 于 U+FFFF 字 符 的 程序 无 法 处 理 这 
种 情况 。 大 多 数 程序 的 \unum 只 能 支持 最 多 4 位 十 六 进 制 数值 。 

能 够 处 理 这 类 新 字符 的 程序 通常 提供 了 \x{num} 序 列 ，num 可 以 为 
任意 多 位 数字 (这 是 为 了 增强 只 支持 4 位 数字 的 \unum 表 示 法 ) 。 你 可 
以 使 用 \x{1D121} 来 匹配 这 类 “说 号 C” 之 类 的 字符 。 

Unicode 中 的 行 终止 符 

Unicode 定 义 了 多 个 用 于 表示 行 终止 符 的 字符 (以 及 一 个 双 字 符 序 
列 ) ， 详 见 表 3-5。 


表 3-5: Unicode 行 终止 符 


字 符 描 述 
LF U+000A ASCII 换行 符 


VT ASCII 径直 制 表 符 
FF ASCII 进 纸 符 
CRILF ASCII 回 车 /换行 
NEL Unicode 换行 

T; Unicode 行 分 隔 符 
PS Unicode fi 3 fh A 


如 果 行 终止 符 获 得 了 完全 的 支持 ， 它 会 影响 文本 行 从 文件 (在 脚 
本 语言 中 ， 还 包括 程序 读 取 的 文件 ) 读 入 的 方式 。 在 使 用 正则 表达 式 
时 ， 它 们 影响 点 号 (11), UR > TS AMZ, 的 匹配 (o 
112) œ 


正则 模式 和 匹配 模式 


Regex Modes and Match Modes 

许多 正则 引 敬 都 支持 多 种 不 同 的 模式 ， 它 们 规定 了 正则 表达 式 应 
该 如 何 解 释 和 应 用 。 我 们 已 经 看 过 Perl 的 /x 修饰 符 (容许 自由 空格 和 注 
释 的 正则 模式 72) 和 /i 修饰 符 (进行 不 区 分 大 小 写 匹 配 的 模式 号 
Ay). s 

在 许多 流派 中 ， 模 式 可 以 完全 作用 于 整个 表达 式 ， 也 可 以 单独 应 
用 于 某 个 子 表达 式 。 整 体 应 用 是 通过 修饰 符 或 者 选项 (options) 来 决 
定 的 ， 例 如 Perl 的 i，PHP 的 模式 修饰 符 i (446) ， 和 java.util.regex 
的 Pattern.CASE_INSENSITIVE 标 志 (99) 。 如 果 文 持 ， 应 用 到 目标 
字符 串 中 部 分 文本 的 模式 是 通过 一 个 正则 结构 来 实现 的 ， 例 如 用 (? 
i) | 来 开启 不 区 分 大 小 写 的 匹配 ，”(? -i) ， 来 停 用 该 匹配 。 有 的 流 
派 也 支持 (? i: ...) ,和 ' (? -ji: ...) | 来 启用 或 者 停 用 对 括号 内 
的 子 表达 式 进 行 不 区 分 大 小 写 匹 配 的 功能 。 

本 章 后 面部 分 会 介绍 (135) 如 何在 正则 表达 式 中 设置 这 些 模 
式 。 在 本 方 ， 我 们 只 看 看 大 多 数 系统 提供 的 常见 模式 。 

不 区 分 大 小 写 的 匹配 模式 

此 模式 很 常见 ， 它 在 匹配 过 程 中 会 忽略 字母 的 大 小 写 ， 所 以 b， 
可 以 匹配 和 ‘B?。 此 功能 也 必须 依赖 于 正确 的 字符 编码 支持 ， 所 以 之 
前 我 们 提 人 到 的 注意 事项 对 它 都 适用 。 

在 历史 上 ,不 区 分 大 小 写 的 匹配 支持 一 直 不 太 令 人 人 满意， 被 bug 
困扰 ， 好 在 如 今 大 部 分 已 经 修正 了 。 不 过 ，Ruby 不 区 分 大 小 写 的 匹配 
仍然 不 能 处 理 八进制 和 十 六 进 制 的 转 义 字符 。 不 区 分 大 小 写 的 匹配 存 
在 特殊 的 与 Unicode 相 关 的 问题 《在 Unicode 中 称 为 “粗略 匹配 (loose 
matching) ”) 。 简 单 地 说 ， 就 是 并 非 所 有 的 ASCII 字 母 和 数字 字符 都 存 
在 大 小 写 形式 ， 而 某 些 字符 在 作为 单词 首 字 母 时 会 有 单独 的 标题 格式 


(title case) 。 有 时 候 在 大 写 和 小 写 之 间 并 没有 明显 的 一 对 一 映射 。 常 
见 的 例子 是 希腊 字母 西 格 马 >， 它 有 两 个 小 写 形式 C 和 o， 在 不 区 分 大 小 
写 的 模式 中 ， 这 三 者 应 该 是 等 价 的 。 根 据 我 的 测试 ， 只 有 Per 和 Java 的 
java.utilregex 能 够 正确 处 理 它 们 。 

男 一 个 问题 是 ， 有 了 时候 单个 字符 会 对 应 到 一 组 字符 。 常 见 的 例子 
是 大 写 的 8 是 两 个 字符 的 组 合 “SS”。 这 种 情况 只 有 Perl 能 够 正确 处 理 。 

Unicode 还 带 来 了 一 些 问题 。 例 如 单字 符 了 (Uv+01F0) 没 有 对 应 的 大 
写 形式 的 单字 符 。 相 反 ， 了 需要 使 用 组 合 字符 (107) ，U+004A 和 
U+030C。 而 了 和 应 该 在 不 区 分 大 小 写 的 模式 中 是 等 价 的 。 类 似 的 还 
有 一 对 三 的 例子 。 科 好， 这 些 都 不 是 名 用 字符 。 

宽松 排列 和 注释 模式 

此 模式 会 忽略 字符 组 外 部 的 所 有 空白 字符 。 字 符 组 内 部 的 空 日 字 
符 仍然 有 效 (java.util.regex 是 例外 ) ， 妇 符号 和 换行 符 之 间 的 内 容 视 为 
注释 。 我 们 已 经 见 过 Perl (72) 、Java (98) 和 VB.NET (99) 中 
相应 的 例子 。 

不 过 ， 在 java.util.regex 中 ， 字 人 符 组 之 外 的 所 有 空 日 字符 并 非 都 会 被 
忽略 ， 而 是 作为 一 个 “无 意义 元 字符 (do-noting metacharacter) ” ° 在 理 
解 \12.3) 时 ， 这 种 区 分 很 重要 ， 因 为 它 表 示 3 接 在 \12 | 之 后 ,而 
不 是 有 些 人 以 为 的 \123, ° 

当然 ,“ 衬 日 字符 ”的 定义 取决 于 所 采用 的 字符 编码 的 定义 ， 以 及 
此 编码 对 空 日 字符 的 文 持 程度 。 大 多 数 程序 只 能 识别 ASCI 的 空白 字 
fF ° 

点 号 通 配 模式 (dot-match-all match mode， 也 叫 “ 单 行 模式 ”) 

通 单 ， 点 号 是 不 能 匹配 换行 符 的 。 最 初 的 Unix 正 则 表达 式 工 具 是 
未 行 处 理 的 ， 直 到 sed 和 lex 出 现 之 后 ， 才 提出 匹配 换行 符 的 要 求 。 那 时 
候 ， 人 们 常用 .类 |) 来 匹配 “本 行 中 的 其 他 内 容 (the rest of the line) ” 
为 了 保证 一 致 ， 新 的 语法 不 能 修改 .类 |, 的 定义 〈 注 9) 。 所 以 ， 能 够 
处 理 多 行文 本 的 工具 (例如 文本 编辑 器 ) 通常 不 容许 点 号 匹配 换行 
FF ° 


对 现代 编程 语言 来 说 ， 点 号 能 够 匹配 换行 符 的 模式 和 不 能 匹配 的 
模式 同样 有 用 。 这 两 种 模式 哪个 更 方便 ， 取决 于 具体 的 情况 。 许 多 程 
序 提供 了 两 种 方法 供 正则 表达 式 选 择 。 

这 种 常规 标准 也 有 少数 例外 的 情况 。 支 持 Unicode 的 系统 ， 例 如 
在 Sun 的 正则 表达 式 包 ， 点 号 能 够 匹配 未 使 用 此 模式 时 点 号 不 能 匹配 
的 所 有 单字 符 Unicode 行 终止 符 (109) 。 在 Tel 的 普通 模式 中 ， 点 号 
能 够 匹配 任何 字符 ， 但 是 在 其 特殊 的 “区 分 换行 ( newline- 
sensitive) ”和 “部 分 区 分 换行 (partial newline-sensitive) ”的 匹配 模式 
下 ， 点 号 和 排除 型 字符 组 都 不 能 匹配 换行 符 。 

不 幸 的 命名 

/s 修 饰 答对 应 的 匹配 模式 第 一 次 出 现在 Perl 时 ， 被 称 为 “单行 文本 模 
式 (single-line mode) ”。 这 个 不 笠 的 命名 一 直 是 混乱 的 起 源 ， 因 为 与 
下 一 节 讨 论 的 “多 行文 本 模式 (multiline mode) ”比较 起 来 ， 它 似乎 与 

A M'S 没有 关系 。 其 实 “ 单 行文 本 模式 ” 指 的 是 ， 点 号 不 受 限制 ， 可 
以 匹配 任何 字符 。 

增强 的 行 锚 点 模式 (Enhanced line-anchor match mode， 也 叫 “ 多 
行文 本 模式 ”) 

增强 的 行销 点 模式 会 影响 到 行 锚 点 ^ 和 $, 的 匹配 。 通 常情 况 
F, HOSA, 不 能 匹配 字符 串 内 部 的 换行 符 ， 而 只 能 匹配 目标 字符 串 
的 起 始 位 置 。 但 是 在 此 增强 模式 下 ， 它 能 够 匹配 字符 串 中 内 符 的 文本 
行 的 开头 位 置 。 前 一 章 出 现 了 这 样 的 例子 (69) ， 当 时 我 们 用 Pen 开 
发 把 文本 内 容 转换 为 超 文本 内 容 程序 。 其 中 ， 所 有 的 文本 保存 在 一 个 
字符 串 中 ， 所 以 我 们 可 以 通过 至 找 -替换 功能 用 s/A$/< p> /mg 来 把 “... 
tags.M] Mirs... FRAK... tags.1 <p> Mirs...” ° ARRIE IT E 
为 段落 tag 。 

1$ BERI, RE $ | 在 正常 情况 下 的 匹配 的 基本 规则 比较 难 
理解 (129) 。 不 过 ， 就 本 节 来 说 ， 我 们 只 需要 记 住 ，'$, 可 以 匹配 
字符 串 内 部 的 换行 符 ， 束 足够 了 。 

支持 此 模式 的 程序 通常 还 提供 了 A, 和 '\z，， 它 们 的 作用 与 普 
通 的 '^ 和 $ ,一样 ， 只 是 在 此 模式 下 它们 的 意义 不 会 发 生变 化 。 也 


就 是 说 \A MNZ 永远 不 会 匹配 字符 串 内 部 的 换行 符 。 有 些 实 现 方 
AP, $ ANZ, 能 够 匹配 字符 串 内 部 的 换行 符 ， 不 过 它们 通常 会 提 
供 '\z, ， 唯 一 匹配 整个 字符 串 的 结尾 位 置 。 详 见 129 页 。 

对 点 号 来 说 ， 常 用 标准 有 一 些 例 外 。 在 GNU Emacs 之 类 的 文本 编 
辑 器 中， 行销 点 通常 能 够 匹配 字符 串 中 的 换行 符 ， 因 为 在 编辑 器 中 这 
样 非常 有 意义 。 另 一 方面 ，lex 的 '$, 只 能 匹配 换行 符 之 前 的 位 置 (其 
TA 的 意义 与 常见 的 一 样 ) 。 

此 模式 下 ， 在 Sun 的 java.util.regex 之 类 支持 Unicode 的 系统 中 ， 行 销 
点 能 够 匹配 任何 一 种 行 终止 符 (109) ° Ruby 的 行 锚 点 在 正常 情况 下 
能 够 匹配 字符 串 中 的 换行 符 ，Python 的 \Z | 类 似 '\z, ， 而 不 是 普通 的 
$ 3 

长 期 以 来 ， 这 种 模式 被 称 为 “多 行 模式 (multiline mode) ” ° RE 
它 与 “单行 模式 ”没有 什么 关系 ， 但 看 名 字 总 容易 觉得 二 者 有 关联 。 后 
者 修改 的 是 点 号 的 匹配 规则 ， 前 者 修改 的 是 ^， A'S, 的 匹配 规则 。 
另 一 方面 ， 它 们 从 不 同 的 思路 处 理 换 行 符 。 第 一 个 修改 了 点 号 处 理 换 
行 符 的 方式 ， 从 “需要 特殊 处 理 ” 变 为 “不 需要 特殊 处 理 ”;， 第 二 个 的 做 法 
则 相反 ， 改 变 了 '^， A'S, 匹配 换行 符 的 方式 ， 从 “不 需要 特殊 处 理 ” 变 
为 “需要 特殊 处 理 ”( 注 10) 。 

文字 文本 模式 

“文字 文本 (literal text) ”模式 几乎 不 能 识别 任何 正则 表达 式 元 字 
符 。 例 如 ， 文 字 文本 模式 下 _[a-z] 关 ,匹配 字符 串 “[a-z] 类 ”。 完 整 的 文 
字 搜 索 (literal search) 等 于 简单 的 字符 串 搜索 (“搜索 这 个 字符 串 ”， 
而 不 是 “搜索 这 个 正则 表达 式 *) ， 支 持 正则 表达 式 的 程序 通常 也 提供 
了 普通 的 字符 串 搜索 功能 。 正 则 表达 式 的 文字 文本 模式 之 所 以 更 有 
趣 ， 是 因为 它 可 以 只 作用 于 正则 表达 式 的 一 部 分 ， 举 例 来 说 ，PCRE 
(因此 也 包括 PHP) 的 正则 表达 式 和 Per 的 正则 表达 式 文本 提供 了 特殊 
的 序列 \Q..\EE， 其 中 内 容 的 元 字符 全 部 被 忽略 (当然 ， 不 包括 \E) © 


常用 的 元 字符 和 特性 


Common Metacharacters and Features 

本 章 的 其 他 部 分 一 一 剩 下 大 约 30 页 的 内 容 简 要 介绍 下 一 页 列 出 的 
常见 正则 表达 式 元 字符 和 概念 。 这 里 的 介绍 并 不 是 全 面 彻底 的 ， 不 过 
也 没有 任何 一 种 正则 工具 涉及 其 中 的 所 有 内 容 。 

从 某 种 意义 上 说 ， 这 一 节 只 是 前 两 章 内 容 的 总 结 ， 但 同时 也 是 为 
本 章 介 绍 更 全 面 更 深刻 的 知识 做 准备 。 读 者 第 一 次 接触 时 ， 只 需 略 读 
本 章 惑 可 以 继续 阅读 下 面 各 章 ， 以 后 在 需要 的 时 候 可 以 随时 问 过 头 来 
查阅 细 广 。 

有 的 工具 添加 了 大 量 的 新 功能 ， 也 可 能 襄 无 根据 地 改变 某 些 通用 
表示 法 ， 以 满足 它们 的 特殊 要 求 。 尽 管 我 有 时 会 提 到 这 些 特 殊 的 工 
具 ， 但 不 会 花 太 多 的 笔墨 在 工具 的 细节 问题 上 。 相 反 ， 在 这 一 节 我 只 
希望 介绍 第 见 的 元 字符 及 其 作用 ， 以 及 与 此 相关 的 一 些 问题 。 我 布 望 
读者 能 够 参考 自己 擅长 的 工具 提供 的 使 用 手册 。 

本 节 介 绍 的 结构 

字符 表示 法 

115 字 符 缩 上 略 表示 法 : mn、\t、\a、\b~\e、 fs\r、Ww.... 

全 116 八 进 制 转 义 : num 

F117 十 六 进 制 /Unicode 转 义 : \xnum ` \x{num} ` \unum `^ 
\Unum, ... 

117 控 制 学 符 : \cchar 

字符 组 及 相关 结构 

118 普通 字符 组 : [a-z] 和 [Aa-z] 

119 几乎 能 匹配 任何 字符 的 元 字符 : 点 号 

120 BSF: AC 

120 Unicode 组 合 字符 序列 : \X 

120 字符 组 缩 略 表示 法 : \Ww、\d、\s、\W、\D…\S 

(121 Unicode 属 性 、 区 块 和 分 类 : \p{Prop} ` \P{Prop} 


125 字符 组 运算 人 符 : [[a-z]&&[aeiou]] 

127 POSIX“ 字 符 组 ” 方 括号 表示 法 : [[: alpha: ]] 

(128 POSIX“collating 序 列 * 方 括号 表示 法 : [[.span-ll.]] 

128 POSIX“ 字 符 等 价 类 ” 方 括 号 表示 法 : [[=n=]] 

(7128 Emacs 语法 类 

锚 点 及 其 他 “ 零 长 度 断 言 ? 

129 行 /字符 串 起 点 : 和、\A 

129 行 /字符 串 终 点 : $°\Z>\z 

130 本 次 匹配 的 开始 位 置 〈 或 者 上 次 匹配 的 结束 位 置 ) : \G 

133 单词 分 界 符 : \b、\B、\<、\>, .... 

133 顺序 环视 (? =...) > (9? ! ...) ;逆序 环视 (? < 
二 

注释 和 模式 修饰 词 

135 模式 修饰 词 : (? modifier) ， 例 如 (? i) 或 

135 模式 作用 范围 : (? modifier: ...) ， 例 如 (? 

œ136 注释 : (2 H...) ME... 

136 文字 文本 苑 围 : \Q...\E 

分 组 、 捕 获 、 条 件 判断 和 控制 

137 捕获 /分 组 括号 : (...) 、\1、2, ... 

137 仅 用 于 分 组 的 括号 : (P?) 

138 命名 捕获 : (? <Name>...) 

139 固化 分 组 : (2? >...) 

139 多 选 结构 : .|..|.…. 

140 条 件 判 断 : 〈? if thenlelse) 

141 匹配 优先 量词 : 大、+、? 、{fnum，num} 

141 忽略 优先 量词 : X? `+? `? 2 » {num, num}? 

142 占有 优先 量词 : 类 +、++、? +> {num, num}+ 


(? -i) 


ct) 


字符 表示 法 


Character Representations 

这 一 组 元 字符 能 够 以 清晰 美观 的 方式 匹配 其 他 方式 中 很 难 描述 的 
某 些 字符 。 

字符 缩 略 表示 法 

许多 工具 软件 提供 了 表示 某 些 控制 字符 的 元 字符 ， 其 中 有 一 些 在 
所 有 机 器 上 都 是 不 变 的 ， 但 也 有 些 是 很 难 输入 或 观察 的 : 

\a 警报 (例如 ， 在 “打印 * 时 扬声器 发 声 ) 。 通 常 对 应 ASCII 中 的 < 
BEL > 字符 ， 八 进 

制 编码 007 ° 

\b 退 格 通常 对 应 ASCII 中 的 <BS> 字符 ， 八 进 制 编码 010。 (在 许 
多 流派 中 ，“\b, 只 有 在 字符 组 内 部 才 表 示 这 样 的 意义 ， 否 则 代表 单词 
oy AFF 133) 

\e Escape FF 通常 对 应 ASCI 中 的 <ESC> 字 符 ， 八 进 制 编码 
033 。 

¥f 进 纸 符 通常 对 应 ASCII 中 的 <FF > 字符 ， 八 进 制 编码 014。 

换行 符 出 现在 几乎 所 有 平台 (包括 Unix 和 和 DOS/Windows) E, 
通常 对 应 ASCII 的 <LEF> 字 符 ， 八 进 制 编码 012。 在 MacOS 中 通常 对 应 
ASCII 的 <CR> 字符 ， 十进制 编码 015。 在 Java 或 任意 一 种 .NET 语言 
中 ， 不 论 采 用 什么 平台 ， 都 对 应 ASCIT <LF>> 字 符 。 

Y 回 车 通常 对 应 ASCII 的 <CR> 字 符 。 在 MacOS 中 ， 对 应 到 ASCII 
的 <LF> 字 符 。 在 

Java 或 任意 一 种 .NET 语 言 中 ， 不 论 采 用 什么 平台 ， 都 对 应 到 ASCII 
的 <CR> 字符 。\t 水 平 制 表 符 对 应 ASCII 的 <HT> 字符 ， 八 进 制 编码 
011 ° 

Ww BRA 对 应 ASCII 的 <VT> 字符， 八进制 编码 013。 

表 3-6 列 出 了 几 种 常用 的 工具 及 它们 提供 的 某 些 字符 缩 略 表示 法 。 
之 前 已 经 说 过 ， 某 些 语言 在 支持 字符 串 文字 时 已 经 提供 了 同样 的 字符 
缩 略 表示 法 。 请 不 要 忘记 那 一 节 (F101) ， 因 为 它 涉 及 某 些 相关 的 陷 
BE o 


会 根据 机 器 变化 的 字符 ? 

从 该 表 可 以 看 出 ， 在 许多 工具 中 ，\m 和 的 意义 是 随 操作 系统 的 变 
化 而 变化 的 〈 注 11) ， 所 以 在 使 用 时 应 格外 小 心 。 如 果 你 需要 在 程序 
可 能 运行 的 所 有 平台 上 都 能 通用 的 “换行 符 ”， 请 使 用 n。 如 果 需 要 一 个 
对 应 特殊 值 的 字符 ， 例 如 HITP 协 议定 义 的 分 隔 符 ， 请 使 用 \012 之 类 标 
准 规定 的 字符 (\012 是 ASCII 中 的 换行 符 的 八进制 编码 ) 。 如 果 你 希望 
匹配 DOS 中 的 行 终结 字符 ， 请 使 用 '\015\012, 。 如 果 希 望 同 时 匹配 
DOS 或 Unix 的 换行 字符 ， 请 使 用 [\015? \012, (它们 通常 是 匹配 行 
尾 的 字符 ， 如 果 和 希望 匹配 行 的 开头 位 置 或 结尾 位 置 ， 请 使 用 行 锚 点 号 
129) 。 


表 3-6， 几 款 工具 软件 及 它们 提供 的 元 字符 简写 法 


单词 RE 警报 ASCIL HRR 换行 符 回 车 符 制 表 符 垂直 


分 界 符 字符 Escape 制 表 符 
\b \b \a \e w ‘Ani Ww WE W 
ii E FHRS 
Python v My i YY y y 
Tel fy vf vv ¢ / YY 
Perl v lv 4 vv /v/v d y 
Java v G ee h b h ha d 
GNUawk | W / 4 YY d F 
GNU sed / 
GNU Emacs A464 &% & & & KH A, 
NET v lv v J / YY fd 
PHP (preg 套件 ) ‘+ 4 ¢ ¢ / F y 
MySQL i 
GNU greplegrep 
flex ww {vv v/v 7y 


T 
< 
R 
Ns 


Ruby vd / / 
VY 支持 ; VC 只 在 字符 组 内 部 支持 
Vn 支持 (字符 事 文字 也 支持 ) 
W 支持 【但 在 字符 事 文字 中 ， 同 样 的 序列 有 不 同 的 意义 ) 
Si 不 支持 (但 在 字符 囊 文 字 中 ， 同 样 的 序列 有 不 同 的 意义 ) 
of: 不 支持 (但 字符 囊 文字 支持 ) 
本 表格 假设 在 每 种 程序 中 使 用 的 都 是 最 适合 正则 表达 式 的 字符 囊 类 型 
股本 信息 请 参考 第 中 页 
八进制 转 义 num 
支持 八进制 (以 8 为 基数 ) 转 义 的 实现 方式 通常 容许 以 2 到 3 位 数字 
表示 该 值 所 代表 的 字 节 或 字符 。 例 如 ，'\015\012 | 表示 ASCII 的 CR/LF 


序列 。 八 进 制 转 义 可 以 很 方便 地 在 正则 表达 式 中 插入 平时 难以 输入 的 
字符 。 例 如 ， 在 Pen 中 ， 我 们 可 以 使 用 Nej 作为 ASCII 的 转 义 字符 ， 但 
是 在 awk 中 不 行 。 

因为 awk 文 持 八 进 制 转 义 ,我们 可 以 直接 使 用 ASCII 代 码 来 表示 


Po ht: 


escape 字 符 : '\033 n 

下 一 页 的 表 3-7 列 出 了 部 分 工具 文 持 的 八进制 转 义 。 

有 些 实现 方式 很 特殊 ， 在 其 中 No 能 够 匹配 字 节 NUL。 有 的 支持 
一 位 数字 的 八进制 转 义 ， 不 过 如 果 同 时 支持 \1 | 之 类 的 反 向 引用 ， 就 
不 会 提供 这 种 功能 。 如 果 两 者 发 生 神 突 ， 则 反 辐 引用 一 般 要 优先 于 八 
进 制 转 义 。 有 的 容许 出 现 4 位 数字 的 八进制 转 义 ， 不 过 通常 会 要 求 任 
何 八 进 制 转 义 都 必须 以 0 开头 (例如 java.util.regex) ° 

你 可 能 会 想 ， 如 果 遇 到 \565 之 类 超出 范围 的 转 义 数值 (8 位 的 八 进 
制 数值 范围 从 \000 到 \377) 会 发 生 什 么 。 大约 一 半 的 实现 方式 将 其 视 为 
多 余 一 个 字 节 的 值 (如 果 支 持 Unicode， 则 可 能 是 Unicode 字 符 ) ， 而 其 
他 实现 方式 会 将 其 截断 为 一 个 字 市 。 一 般 来 说 ， 最 好 的 办 法 还 是 不 要 
使 用 超过 \377 的 八进制 转 义 。 

十 六 进 制 及 Unicode 转 义 : \xnum ` \x{num} ` \unum ` \Unum 

除了 八进制 转 义 之 外 ， 许 多 工具 软件 也 支持 十 六 进 制 转 义 (以 16 
为 基数 ) ， 以 x、\u 或 者 是 \U 开 头 。 如 果 支 持 x， 则 “\x0DW0A | 匹配 
CR/LF 序 列 。 表 3-7 列 出 了 部 分 工具 软件 支持 的 十 六 进 制 转 义 。 

除了 知道 采用 的 是 哪 种 转 义 之 外 ， 你 可 能 还 希望 知道 各 种 转 义 能 
识别 多 少 位 的 转 义 值 ， 以 及 是 否 能 够 (或 者 必须 ) 在 数字 两 端 使 用 花 
括号 。 对 此 ， 表 3-7 同 样 作 了 说 明 。 

控制 字符 : \cchar 

许多 流派 中 可 以 用 \cchar | 来 匹配 编码 值 小 于 32 的 控制 字符 (有 
些 能 支持 更 大 的 值 ) 。 例 如 ， FecH 匹配 一 个 Control-H 字 符 ， 也 就 是 
ASCII 中 的 退 格 符 ， 而 "\cJ, 匹配 ASCII 的 换行 符 (通常 使 用 '"n，， 不 
过 有 时 也 使 用 \r,， ， 这 取决 于 具体 的 平台 115) 。 

文 持 此 结构 的 系统 在 细 方 上 有 所 不 同 。 与 这 个 例子 一 样 ， 通 常 使 
用 大 写 严 文字 母 是 不 会 有 问题 的 。 在 大 多 数 实现 方式 中 ， 你 也 可 以 使 


用 小 写字 母 ， 不 过 也 有 的 软件 不 文 持 它们 ， 例 如 Sun 的 Java regex 
Package。 流 派 不 同 ， 对 字母 和 数字 之 外 的 字符 的 处 理 是 非常 不 同 的 ， 
所 以 我 推荐 在 使 用 \c 时 只 使 用 大 写字 母 。 

相关 提示 : GNU Emacs 支 持 此 功能 ， 但 它 使 用 的 元 序列 非常 奇特 
'? Wehar, (例如 : '? WH， 匹 配 ASCII 编 码 中 的 退 格 字符 ) 。 


表 3-7: 部 分 工 


具 软 件 及 它们 的 正则 表达 式 支 持 的 八进制 和 十 六 进 制 转 义 


EMR [namer | tne 
a Zo 0 07, \377 | \xer 


Tel — \0. \77, \377 | \x\uFFFF; \UFFFFEFFF 
Perl A eee ee 
Java V0, \77, \0377 | \xFF; \uFFFF 


GNU awk | \7, \77, \377 \xe 

GNU sed Eoo ia 

GNU Emacs “十 一 一 一 

NET Pfs ?737 | \xEF; \uFFFF 
PHP (preg 套件 ) 一 一 -人 人 \xP, \KFF, \x{--] 
MySQL 

GNU egrep 一 一 一 

GEU grep EE 用 

flex 7 377 | Axe: NxFF 
Ruby aF, WF 
\0 一 一 0) 匹配 字 节 NUL， 而 其 他 一 位 数字 的 八进制 转 义 是 不 支持 的 ， 
\7,\77 一 一 一 位 和 两 位 八进制 转 义 部 支持 

\07 一 一 支持 开头 为 0 的 两 位 八进制 转 义 

\077 一 一 吉村 开关 为 0 的 3 位 八进制 转 义 

\377 一 一 支持 不 超过 \377 的 3 位 八进制 转 义 

\0377 一 一 支持 不 超过 \0377 的 4 位 八进制 转 义 

\777 一 一 支持 不 超过 \777 的 3 位 八进制 转 义 

\x) 一 一 容许 出 现任 塌 多 位 教 字 

\x{…}】 一 一 \X{…} 客 许 出 现任 总 多 位 数字 

VXE、\XEF 一 一 以 \X 开头 ， 客 许 出 现 一 到 两 位 十 六 进 制 转 义 

\uFFFF 一 一 以 \u 开头 的 4 位 十 六 进 制 转 义 

\UFFFF 一 一 以 \ 开头 的 4 住 十 六 进 制 转 义 

\URFFFFFFF 一 一 以 \U 开拓 的 8 位 十 六 进 制 数学 (参考 第 91 页 的 版 本 信息 ) 


字符 组 及 相关 结构 


Character Classes and Class-Like Constructs 

现在 许多 流派 中 ， 都 有 多 种 方法 在 正则 表达 式 的 某 个 位 置 指定 一 
组 字符 ， 不 过 最 通行 的 方法 还 是 使 用 普通 字符 组 。 

普通 字符 组 ，[a-z] 和 [人 ^a-z] 

我 们 已 经 介绍 过 字符 组 的 基本 概念 ， 不 过 我 还 是 要 强调 ， 元 字符 
的 规定 在 字符 组 内 外 是 有 差别 的 。 例 如 ， 在 字符 组 内 部 类， 永远 都 不 
是 元 字符 ,而 -, 通常 都 是 元 字符 。 有 些 元 序列 ， 例 如 '\b，， 在 字符 
组 内 外 的 意义 是 不 一 样 的 (116) 

在 大 多 数 系 统 中 ， 字 符 组 内 部 的 顺序 环视 是 无 关 紧 要 的 ， 而 且 使 
用 苑 围 表示 法 而 不 是 列 出 范围 内 的 所 有 字符 并 不 会 影响 执行 速度 〈 例 
如 ，[0-9] 与 [908176354] 是 一 样 的 ) 。 相 反 ， 某 些 实现 方式 不 能 完全 优 
化 字符 组 (比如 Sun 提 供 的 Java regex package) ， 所 以 最 好 是 使 用 范围 
表示 法 ， 因 为 如 果 有 差别 ， 这 种 表示 法 的 速度 会 快 一 些 。 

字符 组 通常 表示 肯定 断言 (positive assertion) 。 也 就 是 说 ， 它 们 
必须 匹配 一 个 字符 。 排 除 型 字符 组 仍然 需要 匹配 一 个 字符 ， 只 是 它 没 
有 在 字符 组 中 列 出 而 已 。 把 排除 型 字符 组 理解 为 “匹配 未 列 出 字符 的 字 
和 从 组 ”或 许 更 容易 一 些 (请 务必 阅读 下 一 节 中 关于 点 号 和 排除 型 字符 组 
的 警告 ) 。 '[ALMNOP], 通常 等 价 于 [人 \x00-kQ-\xFF]，， 即 使 在 规定 严 
格 的 8 位 系统 中 ， 这 仍然 成 立 ， 但 是 在 Unicode 之 类 字符 的 值 可 能 大 于 
255 (FF) 的 系统 中 ， 排 除 型 字符 组 TI[ALMNOP] | 可 能 包括 成 千 上 万 
个 字符 一 一 只 是 不 包含 L、M、N、O 和 P。 

请 务必 理解 使 用 范围 表示 法 的 基本 字符 组 。 例 如 ， 用 “[a-Z], 匹配 
字母 束 很 可 能 存在 遗漏 ， 而 且 在 任何 情况 下 显然 都 不 是 “所 有 字母 ”。 
而 [a-zA-Z] 则 能 匹配 所 有 字母 ， 至 少 对 于 ASCII 编 码 来 说 是 这 样 的 (请 
参考 “Unicode BME” PA \p{L} F121) 。 当 然 ， 在 处 理 二 进 制 数 据 时 ， 
字符 组 中 的 \x80-\xFF’ 范 围 表示 法 完全 适用 。 

几乎 能 匹配 任何 字符 的 元 字符 : 点 号 

在 某 些 工具 软件 中 ， 点 号 用 来 缩 略 表示 可 以 匹配 任何 字符 的 字符 
组 ， 而 在 其 他 工具 中 ， 点 号 能 匹配 除了 换行 符 之 外 的 任何 字符 。 这 差 
别 很 细微， 但 如 果 所 用 的 工具 能 够 处 理 包 含 多 个 逻辑 行 的 目标 文本 


(或 者 是 文本 编辑 器 中 的 多 个 逻辑 行 的 文本 ) ， 它 就 非常 重要 。 关 于 
点 号 ， 需 要 注意 的 有 : 

e 在 Sun 的 Java regex package 之 类 的 支持 Unicode 的 系统 中 ， 点 号 不 
能 匹配 Unicode 的 行 终结 符 (109) ° 

se 匹配 模式 (e111) 会 改变 点 号 的 匹配 规则 © 

ePOSIX 规 定 ， 点 号 不 能 匹配 NUL (〈 值 为 0 的 字符 ) ， 尽 管 大 多 数 
脚本 语言 容许 文本 中 出 现 NULL (而 且 可 以 用 点 号 来 匹配 ) 。 

点 号 ， 还 是 排除 型 字符 组 

如 果 所 使 用 的 工具 能 够 在 多 行文 本 中 进行 搜索 ， 请 务必 注意 点 
号 ， 它 在 通常 情况 下 不 能 匹配 换行 符 ， 而 排除 型 字符 组 [^" ] | 通常 都 
可 以 。 如 果 把 Lk" 替换 为 ”"[A"] 关 "，， 可 能 会 带 来 意 想不到 
的 效果 。 点 号 的 匹配 规定 一 般 可 以 通过 变换 匹配 模式 来 更 改 一 一 请 参 
考 第 111 页 的 “点 号 通 配 模 式 ”。 

单个 字 节 

Perl 和 PCRE (也 包括 PHP) 支持 用 \C 匹 配 单 个 字 节 ， 即 使 该 字 节 
位 于 某 个 多 字 节 编码 的 字符 之 中 〈 相 反 ， 其 他 功能 都 是 基于 字符 
的 ) 。 这 个 功能 很 危险 ， 如 果 运 用 不 当 ， 可 能 会 导致 内 部 错误 ， 所 以 
只 有 在 清楚 自己 所 作 所 为 的 情况 下 ， 才 能 使 用 它 。 我 找 不 到 恰当 运用 
的 例子 ， 所 以 下 文 不 再 提 及 。 

Unicode 组 合 字符 序列 : \X 

Perl 和 PHP 支持 用 \X 缩 略 表 示 \P{M}Np{M} 淡 ，， 它 可 以 视 为 点 号 
的 扩展 。 它 匹配 一 个 基本 字符 ( 除 \p{M} 之 外 的 任何 字符 ) ， 之 后 可 能 
有 任意 数目 的 组 合 字 符 ( 除 \p{M} 之 外 ) 。 

之 前 已 经 介绍 过 (107) ，Unicode 体 系 包括 基本 字符 和 组 合 字 
符 ， 二 者 可 以 合成 “看 起 来 ”的 单个 字符 ， 例 如 a (‘a 的 编码 是 U+0061， 
读音 符号 所 "的 编码 是 U+0300) 。 有 的 字符 可 能 包含 不 止 一 个 的 组 合 字 
符 。 例 如 ，“'&’ 就 包括 ‘c?， 然 后 是 变 音 符 “。 ， 最 后 是 短 音 符 

(Unicode 编 码 分 别 是 U+0063、U+0327 和 U+0306) ° 

如 果 希 望 匹配 “francais” 或 者 "franCais”， 仅 仅 使 用 fran.ais | 或 者 

' fran[cG]ais | 还 不 够 保险 ， 因 为 此 方法 假设 ‘GC? 用 单个 Unicode 代 码 点 


U+00C7 表 示 ， 而 不 是 "加 上 变 音 符 (U+0063 加 上 U+0327) ° WRA 
要 专门 处 理 ， 可 以 使 用 ‘fran (c, ? |C) ais, ， 不 过 在 这 里 ， 用 
'fran\Xais | 取代 fran.ais | 是 个 好 办 法 。 

除了 能 够 匹配 结尾 的 组 合 字 符 之 外 ，\X 与 点 号 还 有 两 个 差别 。 其 

一 是 ， 久 始终 能 匹配 换行 符 和 其 他 Unicode 行 终结 符 (中 109) ， 而 点 号 
只 有 在 点 号 通 配 模式 (0111) ,或 者 工具 软件 提供 的 其 他 匹配 模式 下 
才 可 以 。 另 一 点 是 ， 点 号 通 配 模式 下 的 点 号 无 论 什 么 情况 下 都 能 匹配 
任何 字符 ， 而 \X | 不 能 匹配 以 组 合 字符 开头 的 字符 。 

字符 组 简 记 法 : \w、\\d、\s、\W、\D 、\S 

通常 支持 的 简 记 法 有 : 

\d 数字 等 价 于 [0-9] |， ， 如 果 工 具 软 件 支持 Unicode， 能 匹配 所 有 

的 Unicode 数 字 。 

\D 非 数字 字符 等 价 于 [Ad]i 。 

\w 单词 中 的 字符 一 般 等 价 于 “[a-zA-Z0-9 ] | 。 某 些 工 具 软 件 中 
\w, 不 能 匹配 下 画 线 ， 而 另 一 些 工 具 软 件 的 Ww, 则 能 支持 当前 locale 
(87) 中 的 所 有 数字 和 字符 。 如 果 支 持 Unicode，“\w | 通常 能 表示 所 

有 数字 和 字符 ， 而 在 java.util.regex 和 PCRE (也 包括 PHP) F, Nwy” 
格 等 价 于 '[a-zA-Z0-9 ] ° 

\W 非 单词 字符 等 价 于 [和 \w]， 。 

\s 空白 字符 在 支持 ASCII[ 的 系统 中 ， 它 通常 等 价 于 Annt] ° 
在 支持 Unicode 的 系统 中 ， 有 时 包含 Unicode 的 “换行 > 控制 字符 
U+0085， 有 时 包含 “空白 (whitespace) ”属性 \p{Z} (参见 下 一 节 的 介 
绍 ) 


\S 非 空白 字符 等 价 于 [As] | 。 


87 页 已 经 介绍 过 ，POSIX 的 locale 设 定 会 影响 这 些 简 记 符号 的 含 
X (尤其 是 \w) 。 支 持 Unicode 的 程序 中 ，\w 通 常 能 匹配 更 多 的 字符 ， 


例如 \p{L} (下 一 节 介 绍 ) 和 下 画 线 。 
Unicode 属 性 ， 字 母 表 和 区 块 : \p{Prop} `\P{Prop} 


表面 上 看 ，Unicode 只 是 一 套 字符 映射 规则 (106) , HS 
Unicode 标 准 远 远 不 止 这 些 。 它 还 定义 了 每 个 字符 的 性 质 (qualities), 
例如 “这 个 字符 是 小 写字 母 ”, “这 个 字符 是 从 右 往 左 看 的 ”, “这 个 字符 
是 标记 字符 (mark) ， 它 必须 与 其 他 字符 一 同 使 用 ”等 等 。 

不 同 的 正则 表达 式 系统 对 这 些 属 性 的 文 持 也 不 相同 ， 但 是 许多 文 
持 Unicode 的 程序 能 够 通过 fp{quality} 和 '\P{quality}, 支持 其 中 的 一 
部 分 。 比 如 \p{L}， 就 是 个 简单 的 例子 ， 这 里 展 的 意思 是 “字母 

(letter) ”( 相 对 于 数字 number、 标 点 punctuation 和 口音 accent， 之 

X) 。“ 民 是 一 种 普通 属性 (general property， 也 称 为 分 类 category) ° 
我 们 马上 会 了 解 到 ， 可 以 用 \p{...} 和 '\P{...} | 来 测试 其 他 “属性 ”， 
当然 支持 最 广泛 的 还 是 常见 的 属性 。 

常见 的 属性 请 见 表 3-8。 每 个 字符 (实际 上 是 代码 点 ， 包 括 那 些 目 
前 没有 对 应 字符 的 代码 点 ) 都 可 以 用 一 个 普通 属性 匹配 。 普 通 属性 的 
名 字 是 单个 字符 (例如 号 表示 字母 letter，‘S’ 表 示人 符号 symbol, | 
等 ) ， 但 是 某 些 系统 中 可 以 用 多 个 字母 表述 属性 ( 例 
Ul Letter Fi Symbol’) ， 比 如 Perl 就 支持 这 样 。 

在 某 些 系统 中 ， 单 字母 属性 名 可 能 不 需要 花 括 号 (例如 ， 用 \pL 而 
不 是 \p{L}) 。 有 的 系统 可 能 要 求 (或 者 是 容许 ) (AA In’ BK ‘Is’ 六 组 

(例如 \p{IsL}) 。 讲 解 扩 展 属性 (additional qualities) 时 ， 我 们 会 见 到 

要 求 使 用 Is/In 前 绥 的 例子 ( 注 12) 。 

按照 表 3-9， 每 个 用 单字 符 表 示 的 普通 属性 可 以 进一步 分 为 多 个 双 
字母 表示 的 子 属性 (sub-property) ， 例 如 “字母 (etter) ”又 可 以 分 
为 “小 写字 母 ”\“ 大 写字 母 ”\“ 标 题 首 字母 (titlecase letter) ”、“ 修 饰 符 
字母 ?和 “其 他 字母 ”。 每 个 代码 点 能 且 只 能 属于 一 种 子 属 性 。 

表 3-8: 基本 的 Unicode 属 性 分 类 


分 类 等 价 表示 法 及 描述 


\p{L} \p{Letter] 一 一 字 检 

\p{M} \p{Markj 一 一 不 能 单独 出 现 ,而 必须 与 其 他 基本 字符 一 起 出 现 (重音 符号 ， 
CM, FF) 的 字符 

\p{2} \p{Separator} 一 一 用 于 表示 分 也 ,但 本 身 不 可 见 的 字符 (各 种 空白 字符 ) 

\p{S} \p{ Symbol } 一 一 各 种 图 形 符号 (Dingdats) 和 字母 符号 

\p{N} \Vp{Number} 一 一 任何 数字 字符 

\p{P} \p{pPunctuation) 一 一 标点 字符 

pas} \p{0ther]} 一 一 下 配 其 他 任何 字符 (很 少 用 于 正常 字符 ) 


要 补充 的 是 ， 某 些 实现 方式 支持 特殊 的 复合 子 属性 ， 例 如 用 
\p{L&} 表示 “分 大 小 写 的 (cased) ”字母 ， 也 就 是 说 
‘[\p{Lu}\p{LI}\p{Lt}], ° 

表 3-9 还 给 出 了 某 些 实现 方式 支持 的 属性 名 的 全 称 (fl 
如 ,，“Lowercase_Letter”"”， 而 不 是 “LI”) 。 按 照 Unicode 的 标准 ， 各 种 形 
ane 都 M 该 能 够 接 3 ( 例 
il ‘LowercaseLetter’ ` ‘LOWERCASE LETTER’ ` ‘Lowercase-Letter’ ` ‘1 
owercase-letter’?) ， 不 过 ， 为 了 保持 一 致 ， 我 推荐 使 用 表 3-9 中 的 形 
n 

字母 表 (Scripts) 有 的 系统 能 够 按照 字母 表 (书写 系统 writing 
system) 的 名 字 以 “pb{.….} 来 匹配 。 例 如 ， 用 \p{Hebrew} 匹配 希 伯 来 
文 独 有 的 字符 (但 不 包含 其 他 书写 系统 中 常见 的 字符 ， 例 如 空格 和 标 
点 ) 。 

某 些 字 母 表 是 基于 语言 的 (例如 印度 古 哈 拉 地 语 、 泰 国语 、 切 罗 
iB, SS) 。 有 的 覆盖 了 多 种 语言 〈 例 如 拉丁 文 、 西 里 尔 文 ) ， 还 
有 些 语言 包含 多 种 字母 表 ， 例 如 日 语 的 字符 就 来 自 平 假名 、 乒 假名 、 
汉语 和 拉丁 语 。 请 读者 参考 自己 系统 的 文档 获取 完整 的 信息 。 

字母 表 不 会 包含 特定 的 书写 系统 中 的 所 有 字符 ， 而 只 包含 独 属 于 
(或 者 几乎 独 属 于 ) 此 书写 系统 中 的 字符 。 常 见 的 字符 ， 例 如 空格 和 
标点 不 属于 任何 字母 表 ， 而 是 属于 通用 的 IsCommon 伪 字母 表 (pseudo- 


script) , FA '\p{IsCommon}, 匹配 。 还 有 一 个 伪 字 母 表 Inherited， 它 包 
括 从 其 所 属 的 字母 表 中 基本 字符 继承 而 来 的 组 合 字 人 符 。 
表 3-9: 基本 的 Unicode 子 属性 


属 tt 
\p{L1} 
\p{Lu} 
\p(Lt} 


\p(Lé} 
‘piLm) 
\p {Lo} 


\p (Mn) 


\p(Mc} 


\p {Me} 
\p{Zs) 


\p{ Zl} 
\p{Zp)} 
\p {Sm} 
\p {Sc} 
\p {Sk} 


\p{So) 
\p(Nd) 


\p[N1} 
PINe 


\p( Pd) 
\p (Ps) 
\p {Pe} 
\p( Pi) 
\p{Pf£) 
\p {Pe} 
\p{ Po} 
\p{ce} 
\p(cf) 
\p {Co} 
\p(Cn} 


等 价 表示 法 及 说 明 
\p/Lowercase_Letter)—— h 5 F4, 
\p[Uppercase_Letter)— k4 5 FF, 


\PpITitlecase Letter]j 一 一 出 现在 单词 开头 的 字母 【例如 , FH DNI FHA 
旺 和 大 写字 母 DZ 的 首 字 母 形式 ) 。 

\p{L1}、\p{Lu}、\p{Lt} 并 集 的 简 记 法 ， 
\plModifier Letter} 一 一 少数 形似 字母 的 ， 有 特殊 用 途 的 字符 ， 
\P{Other_Letterj 一 一 没有 大 小 写 形式 ,也 不 而 于 修饰 符 的 字母 ,包括 希 伯 来 语 、 
Pdi (ai, Lda, ROB. BPFH, 

\p(Non_Spacing Mark} ALF AE he OS FA (Characters)", Htt 
音符 号 、 变 音符 号 、 某 些 “ 元 音 记 号 ”和 请 调 标 记 。 

\p(Spacing Combining Mark] 一 一 会 占据 一 定 宽度 的 禾 饰 字符 (各 种 语言 中 的 
大 多 数 “ 元 音 记号 ”"， 这 些 语言 包括 孟加拉 语 、 印 度 古 哈 扩 地 语 、 泰 米尔 语 、 泰 卢 
Bib, Heisei, SARI, fie FIG, 0) ih fo FAIS). 
\p{Encolsing Mark) VME RET Hopi, Mio MA, FH. BUF, 
\plSpace_Separator) 一 一 备 种 空白 字符 ,例如 空格 符 、 不 间断 空格 (non-break 
space), HAAA DZERT, 

\p{Line_Separator)——LINE SEPARATOR ¥ # (U+2028), 
\p|Paragraph Separator )——PARAGRAPH SEPARATOR #4 (+2029), 
\p(Math_Symbol)——K& #4]. +, +. ARP ROMA, 

\p(Currency Symbol)——‘tt PAY. S, é, ¥, Ee, 

\p{(Modifier _ Symbol) 一 一 大 多 数 版 本 中 它 表 示 组 合 字符 ,但 是 作为 功能 完整 的 
FH. CNHACHER, 

\p (Other_Symbol)——-4 ff Fp MAT. HAAS. FLAT, AREF ABAM 
PIFFA, FF, 

\p(Decimal Digit Number}——4f*FAAPAO FOR (不 包括 中 文 、 
日 文 和 韩文 ) ， 

\plLetter Number| 一 一 几乎 所 有 的 罗马 数字 。 
\Pp1Other Numberj 一 一 作为 加 密 符号 【superscripts) 和 记号 的 数字 ， 非 阿拉 伯 数 
学 的 数字 表示 字 御 (不 包括 中 文 、 日 文 ， 音 文中 的 字 特 )， 
\plDash_Punctuation) 一 一 各 种 格式 的 连 字 符 (hyphen) ftila (dash). 
\p(Open_Punctuation}|——{, af: (F Ff, 
\p(Close_Punctuation|——), “fo) #F#. 
\p(Initial_Punctuation|——«, “, <# F H. 


\p{Final_Punctuation|——»,', >#F#, 
\P{Connector_Punctuation) 一 一 少 教 有 特殊 语法 含义 的 标点 ， 如 下 画 线 。 
\p(Other_ Punctuationj 一 一 用 于 表示 其 他 所 有 标点 字符 ; wig tS 


\p (Control )}——ASCII 和 Latin-1 编码 中 的 控制 字符 (TAB, LF, CR F). 
PTEormatl 一 一 用 于 表示 格式 的 不 可 见 字符 。 
\p(Private_Use}——7R SHA MEN AGA (例如 公司 的 logo) 。 
\plUnassignedj] 一 一 目前 尚未 分 配 字 符 的 代码 点 ， 


XR (Block) ° KARAM (但 是 比 不 上 ) FER, KERR 
Unicode 字 符 上 映射 表 中 一 定 范 围 内 的 代码 点 。 例 如 ，Tibetan 区 块 表 是 从 
U+0F00 到 U+OFFF 的 256 个 代码 点 。 其 中 的 字符 ， 在 Perl 和 
java.util.regex 中 可 以 用 \p{InTibetan} 来 匹配 ， 在 .NET 中 可 以 用 
\p{IsTibetan} 来 匹配 (细节 见 后 文 ) 。 

区 块 有 许多 种 ， 包 括 对 应 大 多 数 书写 系统 的 区 块 (AAR ` RA 
尔 、 基 本 拉丁 语 、 西 里 尔 文 等 等 ) ， 以 及 特殊 的 字符 组 型 (货币 、 箭 
头 、 文 本 框 、 印 刷 符号 等 ) 。 

Tibetan 是 一 个 典型 的 区 块 ， 因 为 其 中 的 所 有 字符 都 是 按照 西藏 文 
定义 的 ， 此 区 块 之 外 不 存在 专属 于 藏 语 的 字符 。 不 过 ， 区 块 仍然 不 如 
字母 表 ， 原 因 如 下 : 

e 区 块 可 能 包含 未 赋值 的 代码 点 。 例 如 ，Tibetan 区 块 中 大 约 有 259%6 
的 代码 点 没有 分 配 字符 。 

e 并 不 是 看 起 来 与 区 块 相 关 的 所 有 字符 都 在 区 块 内 部 。 例 如 ， 在 
Currency KER PHAM ARS So’, thie LES tog` E 
和 ¥ (幸好 ， 这 时 候 我 们 可 以 用 currency 属 性 \p{Sc}) ° 

e 区 块 通常 包含 不 相关 的 字符 。 例 如 ¥ (表示 “元 ”) 属 
Latin 1_Supplement 区 块 。 

e 属于 某 个 字母 表 的 字符 可 能 同时 包含 于 多 个 区 块 。 例 如 ， 希 腊 字 
符 同 时 出 现在 Greek 和 Greek_Extended 区 块 中 。 

对 区 块 的 支持 比 对 字母 表 的 支持 更 普 裔 。 不 过 这 两 者 很 容易 混 
请， 因为 在 命名 上 存在 许多 重 琶 〈 例 如 ，Unicode 同 时 提供 了 Tibetan 字 
母 表 和 Tibetan 区 块 ) 。 

此 外 ， 按 照 下 页 的 表 3-10 所 示 ， 这 些 命名 本 号 也 没有 统一 的 标准 。 
在 Per 和 javautilregex 中 ，Tibetan 区 块 表示 为 “\p{InTibetan} ， 但 是 
在 .NET 中 又 表示 为 \p{IsTibetan} (更 糟糕 的 是 ， 在 Perl 中 这 是 Tibetan 字 
母 表 的 男 一 种 表示 法 ) 。 

其 他 属性 (Other properties/qualities) 上 面 介 绍 的 知识 并 不 是 通用 
的 。 表 3-10 详 细 介 绍 了 它们 的 适用 情况 。 

要 补充 的 是 ，Unicode 还 定义 了 许多 能 够 通过 \p{...} 结构 访问 的 
属性 ， 其 中 包括 字符 的 书写 顺序 环视 (从 左 至 右 还 是 从 右 至 左 ， 等 


H 


等 ) 、 与 字符 相关 的 元 音 ， 以 及 其 他 属性 。 有 些 实现 方式 还 容许 用 户 
根据 需要 临时 创建 属性 。 请 参考 具体 的 程序 提供 的 文档 了 解 细 方 。 
表 3-10: 属性 /字母 表 / 区 块 的 文 持 情况 


rE 
/ 


V 基本 属性 ， 例 如 \p{L) / / / 

/EABMM AHI, Wei o W / 
基本 属性 缩 略 表示 法 ， 例 如 \p{IsL} | / 

V 基本 属性 的 全 名 ,， 例 和 加 \p{Letter} |Y 


VAS Mit, Hip\pi 26) YY | | | 


VEFA, 例如 \p{Greek] / 
FRHASZ, lto\p(IsGreek)} 


Y 区 块 ， 例 如 \VpfCyrillicl 


VY 区 块 全 名 ,例如 \p{InCyrillic】 
区 块 全 名 、 例 如 \p{IsCyrillic) 


排除 功能 ， 例 如 Pl] Y 
HERR A HE, Mipi) / 

V \plAny) 等 于 plall) J 

/\p(Assigned) ¥F\P(Cn) | 擎 于 MP{Cn} | #F\P(Cn} 

/\p(Unassigned} $F\picn) | 等 于 \p{Cn} | #F\p(cn} 


简单 的 字符 组 减法 : [[a-z]-[aeiou]] 

.NET 提 供 的 字符 组 “减法 ”容许 我 们 在 字符 组 中 进行 减法 运算 。 例 
如 ，“[[a-z]J-[aeiou]] ,匹配 的 字符 就 是 '[a-z] | 能 够 匹配 字符 的 减 去 
[aeiou] | 能 够 匹配 的 字符 ， 也 就 是 ASCII 编 码 中 小 写 的 非 元 音字 母 。 

另 一 个 例子 是 'Mp{P}-[p{Pshp{Pe}]]，， 它 能 够 匹配 \p{P} 中 除 
T\p{Ps}\p{Pe}], 之 外 的 字符 ， 也 就 是 说 ， 它 能 匹配 除了 》 和 (之 类 成 
对 的 符号 之 外 的 所 有 标点 符号 。 

完整 的 字符 组 集合 运算 : [[a-zl&g&[Aaeiou]] 


Sun ‘J Java regex package 中 的 字符 组 能 够 进行 完整 的 集合 运算 

(并 、 减 、 交 ) 。 它 的 语法 有 别 于 前 一 节 中 简单 的 字符 组 减法 (尤其 

是 ， 在 Java 中 匹配 小 写 非 元 音字 母 的 字符 组 [[a-z]&&[^aeiou]]) 。 在 详 
细 介 绍 减法 之 前 ， 我 们 先 来 看 两 个 简单 的 集合 运算 : OR 和 AND 。 

OR 容许 用 户 以 字符 组 方式 在 字符 组 中 添加 字符 [abcxyz] 也 可 以 
表示 为 [[abc][xyz]]、[abc[xyz]] 或 [[abc]xyz] 等 等 。OR 用 来 把 多 个 集合 合 
并 为 新 的 集合 。 从 概念 上 说 ， 它 有 点 像 多 种 语言 提供 的 “ 按 位 或 ?运算 
符 : 中 或 是 "or"。 在 字符 组 中 ，OR 只 不 过 是 一 种 简 记 法 ， 尽 管 包括 排 
除 型 字符 组 在 某 些 情况 下 更 方便 。 

AND 对 两 个 集合 进行 概念 上 的 “与 ?运算 ， 只 保留 同时 属于 两 个 字 
符 组 的 字符 。 它 的 写法 是 在 两 个 字符 组 中 添加 特殊 的 字符 组 元 字符 
&&。 例 如 [\p{InThai}&&\P{Cn}]， 它 通过 对 \p{InThai} 和 \P{Cn} 进 行 交 
运算 (只 保留 同时 属于 两 个 集合 的 字符 ) ， 匹 配 Thai 区 块 中 所 有 已 经 赋 
值 的 代码 点 。\P{...} 中 的 P' 是 大 写 ， 匹 配 不 具备 此 属性 的 字符 ， 所 以 
\P{Cn} 匹 配 的 就 是 除 未 赋值 的 代码 点 之 外 的 代码 点 ， 也 就 是 已 经 赋值 
的 代码 点 (要 是 Sun 能 够 识别 已 赋值 属性 (Assigned quality) ， 就 可 以 
用 \p{Assigned} 替 换 \P{Cn}) ° 

请 不 要 混淆 OR 和 AND。 它 们 的 含义 取决 于 用 户 的 看 法 。 例 如 
[[this][that]] 读 作 “[this] 或 者 [that] 匹 配 的 字符 ”“”， 其 实 它 的 真正 意思 
是 “[this] 和 和 [that 能够 匹配 的 所 有 字符 ”， 这 只 是 对 同一 个 问题 的 两 种 看 
法 。 

相 比 之 下 ，AND 要 清楚 一 些 ，[\p{InThai}&&aAP{Cn}] 读 作 “ 只 匹配 
在 \p{InThai} 和 \P{Cn} 中 出 现 的 字符 ”， 尽 管 它 有 时 候 也 读 作 “匹配 属于 
\p{InThai} 和 \P{Cn} 的 交集 中 的 字符 。” 

看 法 的 不 同 可 能 会 造成 混乱 : 我 叫做 OR 和 AND 的 运算 ， 某 些 人 
可 能 叫做 AND 和 INTERSECTION 。 

以 集合 运算 符 进 行 字符 组 的 减法 \P{Cn} 可 以 写作 [Ap{fCnj]， 所 以 
在 匹配 “Thai block # CIEN FR, [\p{InThai}&&\P{Cn}] 4 Ay LA 
写作 [\p{InThaij&&[Ap{fCnj]]。 这 样 的 改变 并 没有 多 少 意 义 ， 只 是 它 有 
助 于 说 明 一 个 通用 的 模式 : “Thai block 中 已 赋值 字符 > 比 “所 有 Thai 


block 中 的 字符 ， 减 去 未 赋值 的 字符 ”更 好 理解 ， 于 是 我 们 知道 
[\p{InThai} &&[*\p{Cn} ] ]SéAR« \p{InThai} yRF\P{Cn}» o 


这 样 就 回 到 了 本 节 开 头 “[[a-z]&&[Aaeiou]] | 的 例子 ， 现 在 我 们 知 
道 如 何 进行 字符 组 的 减法 了 。 其 模式 为 : “ [this&&[^that]] , 表示 “[this] 
减 去 [thatJ*。 我 发 现 用 && 和 [人 ^...] 进 行 双重 否定 很 难 记忆 ， 所 以 记 住 模 
式 和 [...&&[ 人 ^...]] 就 够 了 。 

通过 环视 功能 模拟 字符 组 的 集合 运算 如 果 所 使 用 的 程序 不 支持 字 
和 从 组 集合 运算 ， 但 支持 环视 功能 (133) ， 则 可 以 自己 模拟 集合 运 
算 o '[\p{InThai}ss(*\p(Cn}lli 可 以 用 环视 功能 写成 
”(?1Np{cn})\p{InThaij ( 注 13) 。 尽 管 它 并 不 如 内 建 的 集合 运算 
有 效率 ， 环 视 仍 然 是 非常 方便 的 做 法 。 这 个 例子 可 以 用 4 种 不 同 的 方式 
来 实现 (在 .NET 中 需要 以 IsThai 蔡 换 InThai125) 

(2!\p{Cn}) \p{InThai} 
(?=\P{Cn}) \p{InThai} 
\p{InThai} (?<!\p{Cn}) 
\p{InThai} (?<=\P{Cn}) 

POSIX“ 字 符 组 ” 方 括号 表示 法 

我 们 通常 所 说 的 字符 组 ， 在 POSIX 标 准 中 称 为 方 括 号 表达 式 

(bracket expression) 。POSIX 中 的 术语 “字符 组 ” 指 的 是 在 方 插 号 表达 
式 ( 注 14) 内 部 使 用 的 一 种 特殊 的 功能 (special feature) ， 而 我 们 可 
以 认为 它们 是 Unicode 的 字符 属性 的 原型 。 

POSIX 字 符 组 是 POSIX 方 括号 表达 式 使 用 的 几 种 特殊 元 字符 序列 之 
一 。 比 如 [: lower: ] 表 示 当 前 locale (87) 中 的 所 有 小 写字 和 母 。 对 英 
文 文本 来 说 ，[: lower: ] 等 于 a-z。 因 为 整个 序列 只 有 在 方 括 号 表达 式 
内 才 是 有 效 的 ， 所 以 对 应 的 完整 的 字符 组 应 该 是 '[[: lower: J], 。 这 
种 表示 法 的 确 很 难看 。 但 是 ， 它 比 ‘Ta-z], 更 好 用 ， 因 为 它 能 包含 5, ñ 
之 类 当前 locale 中 定义 的 “小 写字 母 ”。 

POSIX 字 符 组 的 详细 列表 根据 locale 的 变化 而 变化 ， 但 是 下 面 这 些 
通常 都 能 支持 : 

[: alnum: ] 字母 字符 和 数字 字符 。 


[: alpha: ] 字母。 

[: blank: ] 空格 和 制 表 符 。 

[: centri: ] 控制 字符 。 

[: digit: ] 数字 。 

[L graph: ] 非 空 字符 ( 即 空白 字符 ， 控 制 字 符 之 外 的 字符 ) 
[: lower: ] 小 写字 母 。 

[: print: ] M: graph: ]， 但 是 包含 空 日 字符 。 
[: punct: ] 标点 符号 。 

[: space: ] 所 有 的 空白 字符 ( blank: ]、 换 行 符 、 回 车 符 及 其 


他 ) 

[: upper: ] KEFF ° 

[: xdigit: ] 十 六 进 制 中 容许 出 现 的 数字 (例如 0-9a-fA-F) 

支持 Unicode 属 性 (121) 的 系统 可 能 会 在 Unicode 支 持 中 加 入 这 
些 POSIX 结 构 。Unicode 属 性 结构 更 为 强大 ， 所 以 如 果 可 能 ， 这 些 结构 
应 该 有 提供 。 

POSIX“collating 序 列 » 方 括号 表示 法 : [[.span-ll]] 

Local 可 以 包含 对 应 的 collating 序 列 ， 用 来 决定 其 中 的 字符 如 何 排 
序 。 例 如 ， 在 西班牙 语 中 ， 按 照 惯例 ，11 两 个 字母 在 排序 时 作为 一 个 逻 
辑 字符 (例如 在 tortilla 中 ) ， 排 在 1 和 mm 之 间 ， 日 尔 曼 语 字 母 B 位 于 s 和 t 
中 间 ， 但 是 排序 时 类 似 它 等 价 于 两 个 字母 ss。 这 些 规 则 可 能 用 collating 
序列 命名 来 表示 ， 例 如 ，span-ll 和 和 eszet 。 

collating 序 列 会 把 多 个 实体 字符 映射 到 单个 逻辑 字符 ， 在 span-ll 的 
例子 中 ，1 被 视 为 “一 个 字符 ”， 来 保持 与 POSIX 正 则 引擎 的 兼容 。 也 融 
是 说 ， abc] | 能 够 匹配 浅 两 个 字母 。 

collating 序列 的 元 素 可 以 包含 在 方 括号 表达 式 中 ， 使 用 [.…] 表 示 
法 : torti[[.span-l.]]a, 匹配 tortila。 单 个 collating 序 列 可 以 匹配 组 合 而 
成 的 字符 。 此 种 情况 下 ， 方 括号 表达 式 可 以 匹配 多 个 实体 字符 。 

POSIX“ 字 符 等 价 类 ” 方 括号 表示 法 : [Fn] 

有 的 locale 定 义 了 字符 等 价 类 ， 表 示 某 些 字符 在 进行 排序 之 类 的 操 
作 时 应 视 为 等 价 。 例 如 ， 某 locale 可 能 定义 了 这 样 一 个 等 价 类 ‘nmn*， 包 合 


nai, KEEN- SSR a’, Baar aac SRN RHIERDY 
[: ..….: ]， 但 是 用 等 号 取代 冒号 ， 我 们 可 以 在 方 括号 表达 式 中 引用 这 些 
EMK: “[[=n=][=a=]] | 能 够 匹配 刚才 出 现 的 任意 一 个 字符 。 

如 果 一 个 字符 等 价 类 的 名 称 只 包含 一 个 字母 ， 但 没有 在 locale 中 有 定 
义 ， 则 它 默 认 就 等 于 同样 名 字 的 collating 序 列 。local 通 常 包含 作为 
collating 序 列 的 普通 字符 [.a.]、[.b.]、[.c.] 之 类 一 一 如 果 没 有 定义 特殊 的 
SNR, ”[[=n=][=a=]]) 就 等 于 na] e 

Emacs 语法 类 

GNU Emacs 不 支持 传统 的 \w， > Ns 之 类 ; 相反 ， 它 使 用 特殊 的 
序列 来 引用 “语法 类 (syntax classes) ” 

\schar 匹配 Emacs 语 法 类 中 char 描 述 的 字符 。 

\Schar 匹配 不 在 Emacs 语 法 类 中 的 字符 。 

[sw 匹配 “构成 单词 (word constituent) ”的 字符 ， 而 '\s-, ME 

配 “ 空 白字 符 *。 在 其 他 系统 中 ， 它 们 分 别 写作 \w M sj e 

Emacs 的 特殊 之 处 在 于 ， 在 Emacs 中 ， 这 些 字 符 组 包含 的 字符 是 
可 以 临时 更 换 的 ， 所 以 ， 构 成 单词 的 字符 组 中 的 字符 可 以 根据 所 编辑 
文本 的 变化 而 变化 。 


锁 挟 及 其 他 “ 零 长 度 断 言 ” 


Anchors and Other"Zero-Width Assertions" 

锚 点 和 其 他 “ 零 长 度 断 言 ? 并 不 会 匹配 实际 的 文本 ， 而 是 寻找 文本 
中 的 位 置 。 

行 /字符 串 的 起 始 位 置 : ^、\A 

脱 字 符 A, 匹配 需要 搜索 的 文本 的 起 始 位 置 ， 如 果 使 用 了 增强 的 
行 锁 点 匹配 模式 《ES112) ， 它 还 能 匹配 每 个 换行 符 之 后 的 位 置 。 在 某 
些 系 统 中 ， 增 强 模 式 下 A 还 能 匹配 Unicode 的 行 终结 符 (109) 。 

如 果 可 以 使 用 ， 则 无 论 在 什么 匹配 模式 下 ，“\A | 总 是 能 够 匹配 待 
搜索 文本 的 起 始 位 置 。 

行 /字符 串 的 结束 位 置 : $、\Z 和 \z 


从 下 一 页 的 表格 3-11 可 以 看 出 , “ 行 结束 位 置 (end of line) ”的 概 
念 比 行 开 头 位 置 要 复杂 。 在 不 同 的 工具 软件 中 ， 1$ 的 意义 也 不 同 ， 
不 过 最 常见 的 意思 是 匹配 目标 字符 串 的 末尾 ， 也 可 以 匹配 整个 字符 串 
末尾 的 换行 符 之 前 的 位 置 。 后 一 种 情况 更 为 常见 ， 它 容许 s$，( 匹 
配 “ 以 

s 结 尾 的 行 ”) 来 匹配 …s 四 ， 即 以 s$ 和 换行 符 结 尾 的 行 。 

1$ 的 另 两 种 常见 的 意思 是 ， 只 匹配 目标 文本 的 结束 位 置 ， 或 是 
匹配 任何 一 个 换行 符 之 前 的 位 置 。 在 某 些 Unicode 系 统 中 ， 这 些 规则 中 
的 换行 符 会 被 替换 为 Unicode 的 行 终结 符 (109) ” (Java 为 了 处 理 
Unicode 的 行 终结 符 , 为 $ 设 定 了 非常 复杂 的 语意 370) © 

匹配 模式 (112) 可 以 改变 $ 的 意义 ， 匹 配 字符 串 中 的 任何 换 
行 符 (或 者 是 Unicode 中 的 行 终结 符 ) 。 

WRL, NZ, 通常 表示 “未 指定 任何 模式 下 ” $ ,| 匹配 的 字符 ， 
通 利 是 字符 串 的 末尾 位 置 ， 或 者 是 在 字符 串 末 尾 的 换行 符 之 前 的 位 
Bo (EAR, ‘Wz, 只 匹配 字符 串 的 末尾 ， 而 不 考虑 任何 换行 符 。 表 
3-11 中 列 出 了 少数 例外 。 

表 3-11， 脚 本 语言 中 的 行 锚 点 


Ba Java Perl PHP Python Ruby Tcl NET 
正常 情况 

^ 匹配 字 检 串 起 始 位 置 

^ RE RRA 

$ 匹配 字符 囊 的 结束 位 置 

$ 匹配 字符 囊 结 屁 的 换行 符 

$ 匹配 任何 换行 从 

提供 增强 型 行 锚 点 模式 (7112) 
在 增强 型 行 锚 点 模式 中 


< 
< 


Y / 


<< 
e 


/ 
/ 

/ / Y / V / 
/ / A 
/ 


Te 
aN 
~ 
aN 
N 


^ ERFIR / / / / NA £ W 
^ 匹配 任何 换行 蔡 之 后 的 位 置 |V J SF vv NA Sf J 
$ 匹配 学 符 囊 的 末尾 / y / / NA Vv Y 
$ 匹配 任何 换行 符 之 前 的 位 置 |i / / / NA WV W 
\ 有 总 是 与 普通 的 ^ 一 样 W / / / "4 / / 
\2 总 是 与 普通 的 $ 一 样 vi od / 3 ‘s / W 
\z 总 是 匹配 字符 串 的 末尾 / / / NA NA V / 


在 这 些 情况 下 ，Sun 的 Java regex package 支 持 Unicode 的 行 终结 符 (= 109) ° 
Ruby 的 $ 和 ^ 能 匹配 字符 串 中 的 换行 符 ， 但 是 A 和 \Z 则 不 能 。 
Python 的 \Z 只 能 匹配 字符 串 的 结束 位 置 。 
Ruby 的 \A 与 ^ 不 同 ， 只 能 匹配 字符 串 的 起 始 位 置 。 
Ruby 的 \Z 与 $ 不 同 ， 可 以 匹配 字符 串 的 结尾 位 置 ， 或 是 字符 串 结尾 的 换行 符 之 前 的 位 置 。 
(请 参考 第 91 页 的 版 本 信息 ) 
匹配 的 起 始 位 置 (或 者 是 上 一 次 匹配 的 结束 位 置 ) : \G 
NG, 首先 出 现在 Perl 中 。 在 使 用 /g (51) 的 匹配 中 ，\G 对 迭代 
操作 非常 有 用 ， 它 能 够 匹配 上 一 次 匹配 结束 的 位 置 。 在 第 一 次 迭代 
Ay, NG 匹配 字符 串 的 开头 , 与 "A 一样。 
RERED, NG 的 匹配 会 重新 指向 字符 串 的 起 始 位 置 。 这 


或 者 在 其 他 语言 中 调用 “ 找 出 所 有 匹配 (match all) “函数 ， 在 匹配 失败 


的 同时 ，“\G | 也 会 指向 字符 串 的 开头 位 置 ， 这 样 以 后 进行 其 他 类 型 的 
匹配 操作 便 不 受 影响 。 

根据 我 的 观察 ，Perl 的 NG) 有 3 个 值得 注意 而 且 很 有 用 的 方面 : 

e NG 的 指向 位 置 是 每 个 目标 字符 串 的 属性 ， 而 不 是 设 定 这 些 位 
置 的 正则 表达 式 的 属性 。 也 就 是 说 ， 多 个 正则 表达 式 可 以 依次 对 同一 
个 字符 串 进 行 匹 配 ， 都 使 用 上 一 轮 匹 配 设 定 的 \G| 。 

ePerl 的 正则 运算 符 有 一 个 选项 (Perl 的 /c 修 饰 符 呈 315) ， 它 规定 
了 ， 如 果 匹 配 失败 ， 不 要 重新 设 定 \G，， 而 只 是 保持 之 前 的 值 不 变 
化 。 如 采 结 合 上 面 那 一 点 ， 束 可 以 从 某 个 位 置 开始 尝试 用 多 个 正则 表 
达 式 进行 匹配 ， 直 到 匹配 能 够 成 功 ， 然 后 在 下 面 的 文本 中 继续 寻找 匹 
配 。 

eG, 对 应 的 属性 可 以 用 与 正则 表达 式 无 关 的 结构 (Perl 的 pos 函 
数 呈 313) 来 检查 和 修改 。 可 能 有 人 希望 设 定 这 个 位 置 来 “规定 ”从 什么 
位 置 开始 寻找 匹配 ， 以 及 只 从 那个 位 置 开始 的 匹配 。 同 样 ， 如 果 语 言 
支持 本 条 功能 ， 而 没有 直接 提供 上 一 条 功能 ， 我 们 可 以 用 本 条 功能 3 
模拟 。 

下 页 的 补充 内 容 中 有 个 例子 展示 了 这 些 特性 的 用 法 。 除 了 这 些 便 
捷 之 外 ，Perl 的 NG 还 存在 一 个 问题 ， 即 它 必须 出 现在 正则 表达 式 的 
开头 ， 这 样 才能 正常 工作 。 不 过 对 运 的 是 ， 这 似乎 是 最 目 然 的 用 法 。 

之 前 匹配 的 结束 位 置 ， 还 是 当前 匹配 的 开始 位 置 ? 

不 同 的 实现 方式 之 间 存 在 一 个 区 别 ，\G，, 匹配 的 到 底 是 “当前 匹 
配 的 起 始 位 置 * 还 是 “前 一 次 匹配 的 结束 位 置 "。 在 绝 大 多 数 情况 下 ， 这 
两 者 是 等 价 的 ， 所 以 大 多 数 时 候 这 个 问题 并 不 要 紧 。 但 也 有 些 不 常见 
的 情况 下 ， 它 们 是 有 区 别 的 。215 页 有 个 例子 说 明了 这 种 情况 ， 不 过 最 
容易 的 还 是 用 一 个 专门 的 例子 来 理解 : 把 x? | 应 用 到 ‘abcde’。 这 个 
表达 式 能 够 在 ‘sabcde’ 匹 配 成 功 ， 但 其 实 它 没 有 匹配 任何 文本 。 在 进行 
全 局 查找 -替换 时 ， 正 则 表达 式 会 重复 应 用 ， 每 次 处 理 上 一 次 操作 之 后 
的 文本 ， 除 非 传 动 装置 会 做 些 特别 的 处 理 , “上 次 匹配 完成 的 位 置 "总 
是 它 开 始 的 位 置 。 为 了 避免 无 穷 循环 ， 在 这 种 情况 下 传动 装置 会 强行 


前 进 到 下 一 个 字符 (148) ， 如 果 对 'abcde' 应 用 sx? /! /g， 结 果 就 
fe‘! al bl cl dle!’ 

传动 装置 这 样 处 理会 带 来 一 个 问题 “上 一 次 匹配 的 终点 ”不 等 
于 “本 次 匹配 的 起 点 *”。 如 果 是 这 样 ， 问 题 就 来 了 : NG 匹配 哪个 位 置 
WE? 在 Perl 中 ， 对 'abcde' 应 用 sAGx? /! /g 得 到 ‘! abcde?， 所 以 我 们 知 
道 ， 在 Pen 中 ， NG) 只 匹配 上 一 次 匹配 的 结束 位 置 。 如 果 传 动 装置 自 
行 驱 动 ，Perl 的 \G 肯 定 无 法 匹配 。 

另 一 方面 ， 在 其 他 某 些 工具 软件 中 使 用 同样 的 查找 -替换 命令 ， 会 
得 到 ‘! al bl c! d! e!，， 也 就 是 说 \G 是 在 每 次 匹配 的 起 始 位 置 匹 配 
成 功 ， 然 后 由 传动 装置 进行 驱动 。 

关于 NG, 的 匹配 ， 也 不 能 完全 相信 文档 ， 微 软 的 .NET 和 Sun 的 
Java 文 档 ， 在 我 通知 这 两 家 公司 之 前 ， 都 是 错误 的 (然后 他 们 才 修 
E) 。 现 在 的 状态 就 是 ，PHP 和 Ruby 中 的 \G | 指向 当前 匹配 的 开头 位 
置 ， 而 Perl 、java.utilregex 和 .NET 匹 配 上 一 次 匹配 的 结束 位 置 。 


Perl 中 \G 的 高 级 用 法 


下 面 的 程序 对 Shtml 中 的 HTML 代码 进行 简单 的 校 验 ， 确 保 其 中 只 有 少数 几 种 HTML 
结构 (例如 <IMG> 和 <A>， 以 及 5&gt;)。 在 Yahoo! 我 用 这 种 方法 确保 用 户 提交 的 HTML 
符合 某 些 规范 ， 
这 段 代码 中 最 重要 的 就 是 Perl 的 mhea 匹配 操作 蔡 ， 它 会 把 这 个 正则 表达 式 一 次 性 
应 用 到 目标 字符 事 ， 下 一 次 匹配 从 上 一 次 成 功 匹配 之 后 的 文本 开始 ， 如 果 匹 配 失败 ， 
也 不 会 重新 设 定 position (7315), 
这 样 ， 我 们 就 能 用 包含 多 个 表达 式 的 “tag team” 来 检查 字 荐 囊 。 从 理论 上 说 ， 它 好 像 
对 所 有 这 些 表达 式 进行 整体 的 壬 代 ， 但 是 这 段 程序 的 执行 单位 不 是 一 次 表达 式 而 是 一 
次 匹配 ,而 且 能 够 临时 新 增 或 排除 某 些 表达 式 ， 

my Sneed close anchor = 0; # 如 果 通 见 了 <R> 而 没有 对 应 的 </A>， 则 近 回 True 


while (not $html =~ m/\G\z/qgc) # 在 整个 字符 囊 没 有 处 理 完 之 前 
{ 
if ($html =~ m/\G(\w+)/ge) { 
+. RESI 中 包含 数 字 或 单词 一 一 可 以 检查 语言 的 规范 性 .. 
} elsif ($html =~ m/\G[*<>&\w]+/qc) | 
# 其 他 非 HTML 代码 一 一 无 关 紧 要 
elsif ($html =~ m/\G<img\s+([*>]+)>/aci) 1 
..- 8&4 image taga—TURSCAGHORE... 


elsif (not Sneed_close_anchor and $html =~ m/\G<A\s+((*>]+)>/qci) { 
.， CRM, LPT ARH... 


Sneed close anchor = 1; # 我 们 现在 需要 的 是 </A> 
elsif (Sneed close anchor and $html =~ m{\G</A>}gci) | 
Sneed close anchor = 0; # 需求 已 经 游 足 ， 不 再 容许 出 现 
elsif ($html =~ mANGE(#N\d+<Nw+) ;/ac) | 
E 容 计 出 现 &gt; 和 58#123; 之 类 的 entity 
else [f 此 处 完全 无 法 匹配 、 必 类 有 错误 。 记 下 当前 位 置 ， 从 HIML 中 提取 若干 字 御 ， 报 告 错误 
my $location = pos($html); # il Fiti HTML 的 起 始 位 置 
my ($badstuff) = $html =~ m/\G(.{1,12})/s; 
die "Unexpected HTML at position Slocation: $badstuff\n"; 
} 
} 


E Akti <A> 
if (Sneed_close_anchor) { 
die "Missing final </A>" 
| 


单词 分 界 符 : \b、\B、\<、\>... 

单词 分 界 符 的 作用 与 行 锚 点 一 样 ， 也 是 匹配 字符 串 中 的 某 些 位 
置 。 单 词 分 界 符 可 以 分 为 两 类 ， 一 类 中 单词 起 始 位 置 分 界 符 和 结束 位 
置 分 界 符 是 相同 的 〈 通 常 是 < 和 \> ) ， 另 一 类 则 以 统一 的 分 界 符 来 匹 
配 〈 通 常 是 b) 。 两 类 都 提供 了 非 单词 分 界 符 序列 (通常 是 \B) 。 表 3- 
12 给 出 了 一 些 例子 。 如 果 所 使 用 的 工具 软件 没有 提供 单独 的 起 始 位 置 
和 结束 位 置 分 界 符 ， 但 支持 环视 功能 ， 用 户 也 可 以 用 它 来 模拟 那 两 种 
单词 分 界 符 。 在 下 面 的 表格 中 ， 如 果 程 序 本 身 没有 提供 分 开 的 单词 分 
界 符 ， 我 会 列 出 实践 中 的 做 法 。 

单词 分 界 符 通常 可 以 这 样 理 解 ， 这 个 位 置 的 一 边 是 “单词 字符 
(word character) ”， 另 一 边 则 不 是 。 每 种 工具 软件 对 “单词 字符 ”的 理 
解 都 不 一 样 ， 对 单词 边界 的 理解 也 是 这 样 。 如 果 单 词 分 界 符 等 于 \w 当 
然 好 办 ， 但 很 多 时 候 事 实 并 非 如 此 。 例 如 ， 在 PHP 和 java.util.regex 中 ， 
\w 只 能 匹配 ASCH 字符 ， 而 不 是 Unicode 字符 ， 所 以 在 表格 中 我 会 使 
用 带 有 Unicode 单 词 属性 \pL GX '\p{L} | 的 缩 上 略 表示 法 121) 的 环 
视 功 能 。 

无 论 单词 分 界 符 怎么 定义 “单词 字符 ”， 单 词 分 界 符 的 测试 通常 
是 简单 的 字符 相 邻 测试 。 所 有 的 正则 引擎 都 不 会 对 单词 进行 语意 
Bt: 它们 认为 "NE14AD8" 是 一 个 单词 ， 而 “MILT" 不 是 。 

(? =...) > (2 1...) ; 逆序 环视 (? <=...) ` (? 
< 


uso 


(ER — “ELE EU PAS” (59) 的 例子 中 ， 我 
们 已 经 介绍 过 顺序 环视 和 逆序 环视 结构 (统称 为 环视 ) 。 但 关于 它们 
还 有 很 重要 的 一 点 没有 介绍 ， 那 就 是 环视 结构 中 能 够 出 现 什 么 样 的 表 
达 式 。 大 多 数 实现 方式 都 限制 了 逆序 环视 中 的 表达 式 的 长 度 (但 是 顺 
序 环视 则 没有 限制 ) 。 

Perl 和 Python 的 限制 是 最 严格 的 ， 逆 序 环 视 只 能 匹配 固定 长 度 的 
文本 。 使 用 (? <! Ww) 和 (? <! thislthat) 不 会 出 错 ， 但 是 (? 
<! books? ) 和 (? <! Awt: ) 则 不 行 ， 因 为 它们 匹配 的 文本 的 长 
度 是 不 确定 的 。 某 些 情况 下 ， (? <! books? ) 可 以 重 写 为 ” (? 
<! book) (? <! books) |，， 尽 管 第 一 眼看 上 去 它 并 不 好 理解 。 

表 3-12: 若干 工具 软件 中 使 用 的 单词 分 界 符 元 字符 


af FARAN 
GNU Emacs S E 


TA 5 
MySQL (DSS) >" LL) 


NET (2<! \w) (2=\w) = (2<=\w) (7! \w) 

Perl (2<!\w) (2=\w) e (2<=\w) (2! \w) E 
PHP (2<!pL) (?=\pL) + (?<=pL) (?!\pL) B : 
Python (2<!\w) (2=\w) = (?<=\w) (2 1\w) \B 
| 


i 7 
四 表示 只 能 对 ASCI 中 的 字符 (或 者 是 基于 locale 的 8 位 编码 数据 ) 有 效 ， 即 使 该 流派 支持 
Unicode 也 是 如 此 。 

(请 参考 第 91 页 的 版 本 信息 ) 

更 高 一 层次 的 支持 容许 逆序 环视 中 出 现 不 同 长 度 的 多 选 分 支 ， 所 
Lh (? <! books? ) 可 以 写作 (? <! booklbooks) ° PCRE (因此 也 
包括 PHP 中 的 preg 套 件 ) 支持 此 功能 。 

最 高 层次 的 文 持 可 以 匹配 任意 长 度 的 文本 ， 只 是 其 长 度 不 能 为 无 
Bee ' (2 <! books? ) | 可 以 直接 使 用 ,但 是 (? <! Awe: ) 则 
不 行 ， 因 为 \w+ 能 够 匹配 的 长 度 没 有 限制 。Sun 的 Java regex package 文 
持 这 样 。 

oe la 这 三 级 文 持 其 实 是 一 样 的 ， 因 为 它们 都 表达 同 
样 的 意思 ， 尽 管 有 的 表达 方式 可 能 不 太 好 看 ， 而 且 对 匹配 的 长 度 进行 
了 严格 的 限制 。 中 间 一 级 只 不 过 是 “语法 (syntactic sugar) ”， 表 达 方 式 
更 美观 而 已 。 而 第 办 级 支持 容许 逆序 环视 结构 中 的 子 表达 式 严 配 任意 
长 度 的 文本 ， 甚 至 包括 ”(? < 1 Aw+: ) |。 微 软 的 .NET 就 支持 这 一 
级 ， 它 无 疑 是 最 棒 的 ， 但 是 如 果 运 用 不 当 ， 也 可 能 带 来 严重 的 殖 率 问 
题 (如果 逆序 环视 能 够 匹配 任意 长 度 的 文本 ， 引 警 必 须 从 字符 串 的 起 


AC ETT Wa er A, WSR AMEA F I E A 
开始 的 ， 这 样 束 会 浪费 许多 工夫 ) 。 


Comments and Mode Modifiers 

在 许多 流派 中 ， 使 用 下 面 的 结构 ， 束 能 够 在 正则 表达 式 内 部 ， 切 
换 使 用 之 前 介绍 的 正则 表达 式 模式 和 匹配 模式 (110) ° 

SVE: (? modifier) ， 例 如 (? i) 和 (? -i) 

现在 ， 有 许多 流派 容许 在 正则 表达 式 中 设 定 匹 配 模 式 (110) ° 
常见 的 就 是 ' (? i) ，， 它 会 启用 不 区 分 大 小 写 的 匹配 , 而 ”(? - 
i) ， 会 停 用 此 功能 。 例 如 ， <B> (? i) very (? -i) </B>, 会 对 中 
AS ‘very, 进行 不 区 分 大 小 写 的 匹配 。 而 两 端的 tag 仍然 必须 为 大 
写 。 它 可 以 匹配 (<B>VERY</B>’ 和 ‘<B> Very</B>’， 但 不 能 匹 
本 ‘<b>Very</b>’。 

这 个 例子 在 大 多 数 支 持 ”(? i) | 的 系统 中 都 可 以 运行 ， 例 如 
Perl ` PHP ` java.util.regex ` Ruby ( 注 15) 和 .NET。 在 Python 和 Tal 中 则 
不 行 ， 因 为 它们 不 支持 (? -i | 。 

除 Python 之 外 ， 大 多 数 实 现 方式 中 ，”(? i) ， 的 作用 范围 都 只 限 
于 括号 内 部 (也 就 是 说 ， 在 闭 括 号 之 后 就 失效 ) 。 所 以 ， 我 们 可 以 拿 
掉 ”(? -i) | ， 将 整个 不 需要 区 分 大 小 写 的 部 分 放 在 一 个 括号 里 ， 把 
| (? i) ， 放 在 最 前 面 : '<B> (?: (? i) very) </B>, ° 

模式 修饰 符 中 能 够 出 现 的 不 只 有 宁 “。 在 大 多 数 系统 中 ， 我 们 至 少 
可 以 使 用 表 3-13 列 出 的 修饰 符 。 有 的 系统 还 提供 了 更 多 的 选项 。 比 如 
PHP 就 提供 了 少数 其 他 选项 (446) ，Tel 也 是 如 此 〈 请 参考 文档 ) 。 

表 3-13: 常见 模式 修饰 符 字 母 


模 x 

不 区 分 大 小 写 的 匹配 模式 (7110) 
寅 松 排列 和 注释 模式 (T11) 
点 号 通 配 模式 〈 字 111) 

增强 的 行 锚 点 模式 (7112) 


模式 作用 范围 (? modifier: ...) ， 例 如 (? i: ...) 

如 果 所 使 用 的 系统 支持 模式 修饰 范围 ， 这 样 前 一 节 的 例子 可 以 更 
加 简化 。' (? i: ...) | 表示 模式 修饰 符 的 作用 范围 只 有 在 括号 内 有 
效 。 这 样 ，'<B> (? : (? i) very) </B>, 就 可 以 化 简 为 [<B> 

(? i: very) </B>, ° 

WIR SEF, RRR SAR AAMA FA Be EE I SE BE © Tel 
和 Python 都 支持 ”(? i) Rosh, (LEAH! (i...) | 格式 。 

注释 : (? #...) AIF... 

某 些 流派 支持 用 (? H.) | 添加 注释 。 实 际 上 ， 如 果 流 派 支持 
宽松 排列 和 注释 模式 (111) ， 就 很 少 使 用 这 种 功能 。 不 过 ， 如 果 在 
字符 串 文 字 中 很 难 插入 换行 符 ， 用 这 种 格式 加 入 注释 就 非常 方便 ， 例 
如 VB.NET 就 是 如 此 (99, 420) ° 

文字 文本 范围 : \Q...\E 

\Q...\E 是 由 Perl1 引 入 的 ， 它 会 消除 其 中 除 \E 之 外 所 有 元 字符 的 特殊 
含义 (如果 没 及 ， 就 会 一 直 作 用 到 正则 表达 式 末 端 。 其 中 的 所 有 
字符 都 会 被 当成 普通 文字 文本 来 对 待 。 如 果 在 构建 正则 表达 式 时 包含 
变量 ， 此 功能 就 非常 有 用 。 

举例 来 说 ， 为 了 响应 Web 检 索 ， 我 们 可 能 希望 把 用 户 输入 的 内 容 保 
存在 $query 中 ， 然 后 使 用 m/$query/i。 但是， 如 果 $query 包 含 菜 些 字 
F, MUC: \WINDOWSV， 结 果 是 运行 时 错误 ， 因 为 这 不 是 一 个 合法 
的 正则 表达 式 (最 后 有 一 个 单独 的 反 斜 线 ) 。 

N\Q..AE, 可 以 解决 这 个 问题 。 如 有 果 在 Penl 中 使 用 mAQ$query\E/i， 
则 $query 就 从 ‘C: \WIN-DOWSY 变 成 C\: NWINDOWSN |，， 结 果 能 找 
到 用 户 期 望 的 ‘C: \WINDOWS\’ ° 


但 是 在 面向 对 象 和 程序 式 处 理 (95) 中 ， 这 个 特性 的 用 处 要 打 
折扣 。 在 构建 需要 用 在 正则 表达 式 中 的 字符 串 时 ， 有 很 方便 的 函数 对 
这 个 值 “ 上 保险 ”， 以 便 用 在 正则 表达 式 中 。 例 如 ， 在 VB 中 ， 我 们 可 以 
使 用 Regex.Escape (432) ; PHP 提 供 了 preg_guote 函 数 (470) , 
Java 有 quote 方 法 (395) 。 

就 我 所 知 ， 支 持 \Q..\E,| 的 引擎 只 有 java.utilLregex 和 PCRE (tha 
括 PHP 的 preg 套 件 ) 。 请 注意 ， 我 刚刚 提 到 ， 这 个 功能 是 在 Pen 中 引入 
的 《而 且 我 给 出 了 Pen 的 例子 ) ， 你 可 能 觉得 很 奇怪 ， 为 什么 刚刚 没有 
提 到 Perl。Perl 文 持 正 则 文字 中 的 \Q...EE (也 就 是 直接 出 现在 程序 中 的 
正则 表达 式 ) ,但 是 不 能 在 可 能 使 用 插值 的 内 容 和 变量 上 使 用 。 细 市 
问题 请 参考 第 7H (290) ° 

在 低 于 1.6.0 的 Java 中 ，javautilregex 对 字符 组 中 的 NQ.. AE] 支持 
是 不 可 靠 的 ， 不 建议 使 用 。 


分 组 ， 捕 获 ， 条 件 判断 和 控制 


Grouping,Capturing,Conditionals,and Control 

捕获 /分 组 括号 :，【...) AM, \2, ... 

普通 的 无 特殊 意义 的 括号 通常 有 两 种 功能 : 分 组 和 捕获 。 普 通 括 
号 常见 的 形式 是 ”(.….) | ， 但 有 的 流派 中 使 用 、\ C.) | ， 例 如 GNU 
Emacs、sed、vi 和 grep。 

如 41、43 和 57 页 的 图 所 示 ， 捕 获 型 括号 的 编号 是 按照 开 括 号 出 现 
的 次 序 ， 从 左 到 右 计算 的 。 如 果 提 供 了 反 向 引用 ， 则 这 些 括 号 内 的 子 
表达 式 匹配 的 文本 可 以 在 表达 式 的 后 面部 分 用 '\1，、'\2 来 引用 。 

括号 的 常用 功能 之 一 是 从 字符 串 中 提取 数据 。 括 号 中 的 子 表 达 式 
匹配 的 文本 (也 可 以 称 为 “括号 匹配 文本 (the text matched by the 
parentheses) ”) 在 不 同 的 程序 中 可 以 通过 不 同 的 方式 来 引用 ， 例 如 Perl 
的 $1 和 $2 (常见 的 错误 是 在 正则 表达 式 之 外 使 用 M, AMERRE 
sed 和 和 vi 中 能 用 ) 。 下 一 页 的 表 3-14 说 明了 各 种 程序 中 ， 匹 配 完成 之 后 
访问 文本 的 方法 。 它 还 说 明了 访问 整个 表达 式 匹 配 的 文本 ， 或 者 某 一 
组 捕获 型 括号 所 匹配 文本 的 做 法 。 


仅 用 于 分 组 的 括号 : (? : ...) 

仅 用 于 分 组 的 括号 ”(? : .…) ,不 能 用 来 提取 文本 ， 而 只 能 用 来 
规定 多 选 结构 或 者 量词 的 作用 对 象 。 它 们 不 会 按照 $1、$2 之 类 编号 。 
在 ' (1llone) (? : andor) (2ltwo) ,匹配 之 后 ，$1 包 含 汪 或 
‘one’, ，$2 包 含 22' 或 者 'two'。 只 用 于 分 组 的 括号 也 叫 非 捕获 型 括号 

(non-capturing parentheses) ° 

SETH AR AY aS AY OME SE ILA T° ENAERE RIRIS 
式 变 得 请 晰 ， 这 样 读 者 不 会 担心 在 其 他 地 方 用 到 $1 会 产生 混乱 。 而 且 
它们 还 有 助 于 提高 效率 。 如 果 正 则 引擎 不 需要 记录 捕获 型 括号 匹配 的 
内 容 ， 速 度 会 更 快 ， 所 用 的 内 存 也 更 少 〈 第 6 章 详细 讲解 效率 问题 ) 。 

非 捕获 型 括号 的 另 一 个 用 途 是 利用 多 个 成 分 构建 正则 表达 式 。 在 
第 76 页 的 例子 中 ，$Host-nameRegex 保 存 的 是 用 来 匹配 主机 名 的 正则 表 
达 式 。 如 果 使 用 它 来 提取 主机 名 两 端的 空 日 ， 在 Penl 中 是 m/ (\s*) 
$HostnameRegex (\s*) /。 然 后 $1 和 $2 分 别 保存 开头 和 结尾 的 空白 ， 
但 结尾 的 空白 其 实 是 保存 在 $4 中 的 ， 因 为 $HostnameRegex 包 含 两 组 捕 
获 型 括号 。 

$HostnameRegex=qr/[-a-z0-9]+(\.[-a-z0-9]+) * \.(com|edulinfo)/i; 

表 3-14: 若干 工具 软件 及 其 中 访问 捕获 文本 的 方法 


程 序 完整 的 匹配 第 一 组 括号 匹配 的 文本 
GNU egr Wh 


GNU Emae (match string 0) (match-string 1) 
maS (replacement Fi # ¥ 4 \4) (replacement 字符 事 中 为 \1) 
Substr (Siew, RSTART, RLENGTH 
GNU awk ae \1 (在 gensub 替换 中 ) 


(replacement 字符 囊 中 为 \5) 
MySQL T 
pel FA 1 
PHP 7450 Smatches [1] 
Python %97 MatchObj .group (1) 
l 


Ruby 


GNU sed & (只 能 在 replacement FAS PRA) | \1 (只 能 出 现在 regex 和 replacement 中 ) 


Java #95 | MatcherObj .qroup () MatcherObj.qroup (1) 
Tel 通过 regexp 命令 设置 为 用 户 选 择 的 变量 
VB.NET 7°96 | MatchObj.Groups (0) MatchObj . Groups (1) 


CH MatchObj Groups (1) 
i eoo N 
(请 参考 第 91 页 的 版 本 信息 ) 
如 果 这 两 组 括号 是 非 捕获 型 的 ， 我 们 就 可 以 按照 直观 的 方式 使 用 
$HostnameRegex。 另 一 种 办 法 是 使 用 命名 捕获 ， 尽 管 Perl 没 有 提供 这 种 
功能 ， 我 们 还 是 会 介绍 它 。 
命名 捕获 : (? <Name>...) 
Python 和 PHP 的 preg 引 警 ， 以 及 .NET 引 警 ， 都 能 够 为 捕获 内 容 命 
名 。Python 和 PHP 使 用 的 语法 是 ' (2 P<name>...) ，， 而 .NET 使 用 
| (2 <name>...) |。 我 更 喜欢 .NET 的 语法 。 下 面 是 一 个 .NET 的 例 
[\b(? < Area > \d\d\d\)-(? < Exch > \d\d\d)-(?< Num > \d\d\d\d)\b , 


在 Python/PHP 中 是 这 样 : 
[ \b(?P < Area > \d\d\d\)-(2P < Exch > \d\d\d)-(?P < Num > 


\d\d\d\d)\b, 


这 个 表达 式 会 用 美国 电话 号 码 的 各 个 部 分 “填充 ”Area、Exch 和 Num 
命名 的 内 容 。 然 后 我 们 可 以 通过 名 称 来 访问 各 个 括号 捕获 的 内 容 ， 例 
如 在 VB.NET 和 大 多 数 .NET 语 言 中 ， 可 以 使 用 RegexObj.Groups ( " 
Area") ， 在 C 世 中 使 用 RegexObj.Groups[ " Area " ]， 在 Python 中 使 用 
RegexObj.group ( " Area" ) ， 在 PHP 中 使 用 $matches[ " Area " ] ° 3X 
样 程序 看 起 来 更 清晰 。 

如 果 要 在 正则 表达 式 内 部 引用 捕获 的 文本 ，.NET 中 使 用 '\k< Area 
| ，Python 和 PHP 中 使 用 1 (? P=Area) | ° 


在 Pyhon 和 .NET (但 不 包括 PHP) 中 ， 可 以 在 同一 个 表达 式 中 多 次 
使 用 同样 的 命名 。 例 如 美国 电话 号 码 的 区 号 部 分 的 形式 是 ′ (六 要 
H) ;或 者 ‘要 要 并 -*， 为 了 匹配 ， 我 们 可 以 使 用 (用 .NET 语 法 ) : |... 
(2: \ ( (2 <Area>\dd\d) \) | (? <Area>\d\d\d) -) ...)。 无 论 
哪 一 组 匹配 成 功 ， 都 会 把 3 位 的 区 号 保存 到 Area 中 。 

固化 分 组 : (? is) 

如 果 详 细 了 解 正则 引擎 的 匹配 原理 (169) ， 就 很 容易 理解 固化 
分 组 。 在 这 里 只 说 一 点 ， 就 是 一 旦 括号 内 的 子 表达 式 匹 配 之 后 ， 匹 配 
的 内 容 就 固定 下 来 (固化 (atomic) 下 来 无 法 改变 ) ， 在 接 下 来 的 匹配 
过 程 中 不 会 变化 ， 除 非 整个 固化 分 组 的 括号 都 被 弃 用 ， 在 外 部 回 济 中 
重新 应 用 。 下 面 这 个 简单 的 例子 会 帮助 我 们 理解 这 种 匹配 的 “固化 ”性 
质 。 


> 


Cj! | 能 够 匹配 iHola! >, (AMR , 在 固化 分 组 | (? 
> .大 ) ! | 中 就 无 法 匹配 。 在 这 两 种 情况 下 ，“ .大 ， 都 会 首先 匹配 尽 可 
能 多 的 内 容 ( iaoela》 )， 但 是 之 后 的 【! | 无 法 匹配 ， 会 强迫 '. 类 | 释 
放 之 前 匹配 的 某 些 内 容 (最 后 的 ‘! ，) 。 如 果 使 用 了 固化 分 组 ， 就 无 法 
RA, AA Tk 在 固化 分 组 中 ， 它 永远 也 不 会 “交还 ”已 经 匹配 的 任 
何 内 容 。 

尽管 这 个 例子 没有 什么 实际 价值 ， 固 化 分 组 还 是 有 重要 的 用 途 。 
尤其 是 ， 它 能 够 提高 匹配 的 效率 (171) ， 而 且 能 够 对 什么 能 匹配 ， 
什么 不 能 匹配 进行 准确 地 控制 (269) 。 

多 选 结构 : ...|.….|.…. 


多 选 结构 能 够 在 同一 位 置 测 试 多 个 子 表达 式 。 每 个 子 表 达 式 称 为 
一 个 多 选 分 支 (alternative) 。 符 号 ag 有 很 多 称呼 ， 不 过 “或 
(or) ”和 “ 竖 线 (bar) ”最 为 常见 。 有 的 流派 使 用 '\|，。 
多 选 结构 的 优先 级 很 低 ， 所 以 “this andlor that , 的 匹配 等 价 于 
| (this and) | (or that) ，， 而 不 是 this (andjor) that, ， 虽 然 andlor 
ELERE TEM 

大 多 数 流派 都 容许 出 现 空 的 多 选 分 支 ， 例 如 (this1that1)j。 空 

表达 式 在 任何 情况 下 都 能 匹配 ， 所 以 这 个 例子 等 于 (thislthat) ? ， 
( 注 16) 。 

POSIX 标 准 人 禁止 出 现 空 多 选 分 文 ，lex 和 大 多 数 版 本 的 awk 也 是 如 
此 。 我 认为 ， 考 虚 到 空 多 选 分 文 的 简便 和 清晰 ， 保 留 它 不 无 益处 。 
Larry Wall 告 诉 我 :“ 我 认为 ， 保 留 它 就 好 像 在 数学 中 保留 0 一 样 有 意 

条 件 判断 : (? if thenlelse) 

这 个 结构 容许 用 户 在 正则 表达 式 中 使 用 if/then/else 判断 。i 部 分 是 
特殊 的 条 件 表达 式 (a special kind of conditional expression) ， 下 文 马上 
会 有 介绍 。then 和 else 部 分 是 普通 的 子 表达 式 。 如 果 if 部 分 测试 为 真 ， 
则 演 试 then 的 表达 式 ， 否 则 答 试 else 部 分 (else 部 分 也 可 以 不 出 现 ， 果 真 
如 此 的 话 ， 可 以 省 略 路 ) 。 

if 的 种 类 因 流 派 的 不 同 而 不 同 ， 但 是 大 多 数 实现 方式 都 容许 在 其 中 
引用 捕获 的 子 表达 式 和 环视 结构 。 

测试 对 捕获 型 括号 的 特殊 引用 。 如 果 if 部 分 是 一 个 括号 中 的 编 
号 ， 而 对 应 编号 的 捕获 型 括号 参与 了 匹配 ， 其 值 为 “true”。 下 面 的 例子 
匹配 <IMG > tag， 无 论 是 是 单独 出 现 的 ， 或 者 是 在 <A>...</A> 中 
出 现 的。 代码 采用 带 注 释 的 宽松 排列 格式 ， 条 件 判 断 结构 (这 里 的 没 
有 else 部 分 ) 以 粗 体 标 注 。 

( <A\s+[*>]+> \s* )? # 匹配 开头 的 <A> 七 ag， 如 果 存 在 的 话 
<IMG\s+[*>]+> # 匹配 <IMG> tag 
(? (1) \s*</A>) # 匹配 结尾 的 </A>， 如 果 之 前 匹配 过 <A> 


C (1) ...) | 测试 中 的 (1) 会 测试 第 一 组 捕获 型 括号 是 否 参 
与 了 匹配 。“ 参 与 匹配 * 不 等 于 “实际 匹配 了 了 文本， 来 看 个 简单 的 例子 : 

下 面 两 种 办 法 都 可 以 匹配 可 能 包含 在 “<...>” 中 的 单词 : 
L (<) ?w+ (2? (1) >) WA, T(<?)wr (? (1) >) , 
则 不 行 。 它 们 之 间 唯 一 的 区 别 在 于 第 一 个 问号 出 现 的 位 置 。 在 第 一 种 

(正确 的 ) 办 法 中 ， 问 号 作用 于 整个 捕获 型 括号 ， 所 以 括号 (以 及 包 
含 的 内 容 ) 不 是 必须 匹配 的 。 在 第 二 个 例子 中 ， 捕 获 型 括号 不 是 可 选 
的 一 一 只 有 其 中 的 < TE, MULE < 是否 匹 配 了 文本 ， 它 都 “ 参 
与 匹配 ?。 也 就 是 说 ，”(? (1) ...) ， 中 的 if 部 分 总 是 “true”。 

如 果 能 够 使 用 命名 捕获 (138) ， 就 可 以 在 括号 中 使 用 命名 ， 而 
不 是 编号 。 

用 环视 做 测试 。 完 整 的 环视 结构 ， 例 如 2 =...) ,| 和"”(? < 
=...) | ， 可 以 用 于 证 测试 。 如 果 环 视 能 够 匹配 ， 它 返回 “true”， 执 行 
then 部 分 。 否 则 会 执行 else 部 分 。 来 看 个 专门 设计 的 例子 
'(2(2<=NUM:) \d+I\wt)s, Bde NUM: |, 之 后 的 位 置 尝试 匹配 


\d+, ,但 是 在 其 他 位 置 党 试 使 用 \w+ | 。 环 视 条 件 判断 以 下 画 线 标 
注 。 

条 件 判断 的 其 他 测试 。Perl 提供 了 一 种 复杂 的 条 件 判断 结构 ， 容 许 
在 测试 中 使 用 任意 Perl 代 码 。 返 回 值 作为 测试 的 值 ， 根 据 它 来 判断 then 
或 者 else 部 分 是 否 应 该 和 尝试。 详细 信息 请 参考 第 7 章 的 第 327 页 。 

匹配 优先 量词 : *«++>? `{num, num} 

量词 ( 星 号 、 加 号 、 问 号 ， 以 及 区 间 元 字符 ， 它 们 能 够 限制 作用 
对 象 的 匹配 次 数 ) 已 经 有 过 详细 介绍 。 不 过 ， 需 要 注意 的 是 ， 在 某 些 
工具 中 使 用 \+ 和 '\? 来 取代 + 和 '? |,。 同 样 ， 在 某 些 更 老 的 工 
具 中 ， 量 词 不 能 限定 反 回 引用 ， 也 不 能 限定 括号 。 

区 间 : {min，max} 或 者 \{min，max\} 

区 间 可 以 被 认为 是 “计数 量词 (counting quantifier) ”， 因 为 用 户 可 
以 通过 区 间 指 定 匹 配 成 功 所 必须 的 下 限 和 上 限 。 如 果 只 设置 了 一 个 数 
值 (例如 | [a-z]{3}, 或 者 [a-z]\M{3\}，， 依 流派 决定 ) ， 匹 配 的 次 数 就 


等 于 这 个 值 。 它 等 同 于 [az][a-z][a-z]， (尽管 两 者 的 效率 可 能 有 所 不 
同 251) 。 

需要 注意 的 是 ， 不 要 认为 X{0，0} | 的 意思 是 “X 不 能 出 现 ”。 
'X{0, 0}, 没有 意义 ， 因 为 它 的 意思 是 “不 需要 匹配 X ， 也 就 是 说 实 
际 上 根本 不 需要 进行 任何 尝试”。 它 基本 等 于 'X{0，0} | 不 存在 一 一 如 
条 存 在 X， 它 也 可 以 被 正则 表达 式 之 后 出 现 的 某 些 元 素 匹 配 ， 所 以 这 
种 做 法 是 行 不 通 的 〈 注 17) 。 要 实现 “不 容许 存在 ”， 请 使 用 否定 性 环 
视 。 

忽略 优先 量词 : +X? `+? `? ? `{num, num}? 

有 的 工具 提供 了 不 那么 美观 的 量词 : x? 、+? >? ? 和 {min， 
max}? 。 这 些 是 忽略 优先 的 量词 。 量 词 在 正常 情况 下 都 是 “匹配 优先 
(greedy) ”的 ， 匹 配 尽 可 能 多 的 内 容 。 相 反 ， 这 些 忽略 优先 的 量词 会 
匹配 尽 可 能 少 的 内 容 ， 只 需要 满足 下 限 ， 匹 配 束 能 成 功 。 其 中 的 差异 
有 深远 的 影响 ， 详 细 的 介绍 在 下 一 章 (159) 。 

占有 优先 量词 : 类 +、++、? +、{num, num}+ 

这 些 量词 目前 只 有 java.util.regex 和 PCRE (以 及 PHP) 提供 ， 但 是 
很 可 能 会 流行 开 来 ， 占 有 优先 量词 类 似 普通 的 匹配 优先 量词 ， 不 过 他 
们 一 旦 匹配 菜 些 内 容 ， 就 不 会 “交还 *”。 它 们 类 似 固 化 分 组 ， 如 果 理 解 
了 基本 的 匹配 过 程 ， 就 很 容易 理解 占有 优先 量词 。 

从 某 种 意义 上 来 说 ， 占 有 优先 的 量词 只 是 些 表面 工夫 ， 因 为 它们 
可 以 用 固化 分 组 来 模拟 。 T+ 与”(? >.+) , 的 结果 完全 一 样 ， 只 
是 足够 智能 的 实现 方式 能 对 占有 优先 量词 进行 更 多 的 优化 。 


高 级 话题 引导 


Guide to the Advanced Chapters 

我 们 已 经 熟悉 了 元 字符 、 流 派 、 语 法 包装 (syntactic packaging) 
之 类 的 概念 ， 现 在 应 该 详细 介绍 本 书 开头 提 到 的 第 三 点 了 ， 也 残 是 工 
具 软 件 的 正则 引 警 如 何 把 一 个 正则 表达 式 应 用 到 文本 当中 。 在 第 4 
章 “ 正 则 表达 式 的 匹配 原理 * 中 ， 我 们 会 看 到 人 匹配 引擎 的 实现 方式 如 何 
影响 匹配 的 完成 、 匹 配 的 内 容 ， 以 及 匹配 的 时 间 。 我 们 会 详细 考察 这 
一 切 。 学 习 完 这 些 知 识 之 后 ， 你 在 调 校 复杂 的 正则 表达 式 时 会 更 有 信 
心 。 第 5 半 “ 实 用 正则 表达 式 技 巧 " 会 用 更 复杂 的 例子 巩固 这 些 知 识 。 

接 下 来 是 第 6 章 “ 打 造 高 效率 的 正则 表达 式 ”。 了 解 了 引擎 的 基本 工 
作 原 理 之 后 ， 你 会 学 习 到 如 何 充分 利用 这 些 知识 。 第 6 章 考 察 了 正则 
表达 式 的 陷阱 一 一 它们 通常 会 导致 意外 的 结果 ， 然 后 教会 读者 真正 运 
用 书本 上 的 知识 。 

第 4、5、6 三 章 是 本 书 的 核心 。 头 三 章 只 是 为 它们 做 铺垫 ， 而 且 
最 后 针对 工具 软件 的 章 志 以 它们 为 基础 。 核 心 章节 不 容易 阅读 ， 但 是 
我 尽力 避免 使 用 数学 、 代 数 和 其 他 我 们 不 熟悉 的 概念 。 但 是 ， 就 像 任 
何 高 深 的 学 问 一 样 ， 潜 心 研 究 细 市 需要 花费 相当 的 工夫 。 


第 4 章 表达 式 的 匹配 原理 


The Mechanics of Expression Processing 

前 一 章 在 开头 类 比 了 正则 表达 式 与 汽车 ， 余 下 的 部 分 介绍 了 正则 
表达 式 的 功能 、 特 点 以 及 其 他 相关 信息 。 本 章 仍 会 使 用 这 个 类 比 来 说 
明 重 要 的 正则 引擎 及 其 工作 原理 。 

为 什么 需要 了 解 这 些 原 理 昵 ? 读者 将 会 了 解 到 ， 正 则 引擎 分 为 很 
多 种 ， 最 常用 的 引擎 类 型 Perl ` Tcl ` Python ` .Net ` Ruby ` PHP, 
我 见 过 的 所 有 的 Java 正 则 包 ， 以 及 其 他 语言 使 用 的 工作 原理 ， 基 于 此 
原理 ， 构 建 正 则 表达 式 的 方式 决定 了 某 个 正则 表达 式 能 否 匹 配 一 个 特 
定 字符 串 ， 在 何 处 匹配 ， 以 及 匹配 成 功 或 报告 失败 的 速度 。 如 果 你 认 
为 这 些 问 题 很 重要 ， 请 阅读 本 章 。 


发 动 引 擎 


Start Your Engines! 

现在 我 们 来 看 看 ， 引 警 的 类 比 能 为 我 们 提供 多 大 大助。 引擎 的 价 
值 在 于 ， 有 了 它 ， 你 不 需要 花 多 少 气 力 束 能 从 一 个 地 方 移动 到 男 一 个 
地 方 。 区 驶 员 只 需要 放松 或 者 听 听 音乐 ， 发 动机 会 完成 余下 的 事情 。 
它 的 主要 任务 加 是 驱动 车 轮 ， 而 要 驶 员 没 必要 关心 它 是 如 何 工 作 的 。 
征 这 样 吗 ? 


两 类 引擎 


Two Kinds of Engines 

设想 一 下 芍 驶 电动 汽车 的 情形 ? 电动 汽车 已 经 诞生 很 了， 但 它 
们 不 像 汽 油 发 动机 驱动 的 汽车 那样 普及 ， 因 为 电动 汽车 还 不 够 成 熟 。 
如 采 你 有 辆 电动 汽车 ， 请 记 住 别 给 它 加 油 。 如 果 你 的 汽车 采用 汽油 发 
动机 ， 请 务必 远离 烟火 。 电 动机 几乎 总 是 “能 够 运行 ”， 汽 油 机 则 需要 
多 加 保养 。 更 换 火 花 塞 、 空 气 过 滤器 ， 或 者 换 用 不 同 品 牧 的 汽油 ， 有 
可 能 大 大 提升 发 动机 的 效率 。 当 然 ， 也 可 能 降低 汽油 机 的 性 能 ， 或 者 
导致 发 动机 轻 工 。 不 同 引 擎 的 工作 原理 也 有 不 同 ， 但 目的 都 是 驱动 车 
f° Art, WRIT EAR SHA, HOTA, SR, he 
题 外 话 。 


新 的 标准 


New Standards 

让 我 们 看 看 添加 一 条 新 规范 : 加 利 福 尼 亚 州 的 尾气 排放 标准 ( 注 
1) 。 一 些 发 动机 达到 了 加 州 的 严格 排放 标准 ， 一 些 则 没有 。 这 两 类 发 
动机 并 没有 本 质 的 不 同 ， 只 是 按 标准 划分 为 两 类 。 这 些 标准 规定 了 发 
动机 尾气 排放 的 成 分 ， 而 并 没有 规定 发 动机 应 该 怎样 做 才能 达标 。 所 
以 ， 现 在 我 们 可 以 把 之 前 的 两 分 法 变 为 四 分 法 : 符合 标准 的 电动 机 、 
不 符合 标准 的 电动 机 、 符 合 标准 的 汽油 机 和 不 符合 标准 的 汽油 机 。 


n REGTE, ELA E E > Bo BY DAI 
定 ?” 尾 气 的 成 分 ， 而 电动 机 几乎 没有 尾气 。 相 反 ， 
汽油 机 要 达标 可 有 EEA IAHR (EHER BLY 2 BE 
尤其 需要 注意 汽油 的 型 号 一 aes 7, ete EAT ° 

标准 的 作用 

更 严格 的 排放 标准 是 个 好 玩意 儿 ， 但 要 驶 员 也 需要 考虑 更 多 ， 同 
时 更 加 小 心 (至 少 对 汽油 车 来 说 如 尼 ° 不 过 坦 日 说 ， 新 标准 对 大 多 
数 人 没有 什么 影响 ， 因 为 其 他 州 不 会 施行 加 州 的 标准 。 

所 以 你 知道 ， 四 种 类 型 的 发 动机 其 实 可 以 分 为 三 类 : 两 类 是 汽油 
机 ， 一 类 是 电动 机 。 虽 然 它 们 部 十 续 动车 轮 的， 但 你 明日 了 其 中 的 磊 
异 。 你 不 知道 的 是 ， 这 堆 复 洒 的 玩意 与 正则 表达 式 有 什么 关系 ! 其 实 
这 里 面 的 关系 远 比 你 能 想象 的 要 复杂 。 


正则 引擎 的 分 类 


Regex Engine Types 

正则 引擎 主要 可 以 分 为 基本 不 同 的 两 大 类 : 一 种 是 DFA (相当 于 
之 前 说 的 电动 机 ) ， 男 一 种 是 NFA (相当 于 前 面 的 汽油 机 ) 。 我 们 很 
快 束 会 知道 DFA 和 NFA 的 具体 含义 ， 但 是 现在 读者 只 需要 知道 这 两 个 名 
字 ， 束 像 “Bill*” 和 “Ted”，“ 汽 油 机 ”和 “电动 机 ”一 样 。 

DFA 和 NFA 都 有 很 长 的 历史 ， 不 过 ， 正 如 汽油 机 一 样 ，NFA 的 历 
史 更 长 一 些 。 使 用 NFA 的 工具 包括 .NET、PHP ` Ruby ` Perl ` Python ` 
GNU Emacs、ed、sec、vi、grep 的 多 数 版 本 ， 甚 至 还 有 某 些 版 本 的 
egrep 和 awk。 而 采用 DFA 的 工具 主要 有 egrep、awk、lex 和 flex。 也 有 些 
系统 采用 了 混合 引 警 ， 它 们 会 根据 任务 的 不 同 选择 合适 的 引擎 (甚至 
对 同一 表达 式 中 的 不 同 部 分 采用 不 同 的 引 苟 ， 以 求 得 功能 与 速度 之 间 
的 最 佳 平衡 ; 。 表 4-1 列 出 了 少量 常用 的 工具 及 其 大 多 数 版 本 使 用 的 引 
ZE o o aa a 可 以 参考 下 一 页 的 “测试 引擎 
的 类 型 ”来 找到 答案 


表 4-1: 部 分 程序 及 其 所 使 用 的 正则 引擎 


引擎 类 型 
DFA 


awk (大 多 数 版 本 ) egrep (大 多 数 版 本 )、flex、lex、MySQL、Procmail 
GNU Emacs, Java, grep (& $ tk A) Lesy more, .NET 48% , PCRE library, 
Perl, PHP (*FA =A), Python, Ruby, sed (大 多 数 版 本 ) vi 
mawk, Mortice Kern Systems’ utilities, GNU Emacs (明确 指定 时 使 用 ) 
GNU awk, GNU grep/egrep, Tel 


传统 型 NFA 


POSIX NFA 
DFA/NFA 混合 


第 3 章 已 经 讲 过 ，NEFEA 和 DEFA 都 发 展 了 二 十 多 年 ， 产 生 了 许多 不 必 
要 的 变 体 ， 结 果 ， 现 在 的 情况 比较 复杂 。 了 POSIX 标 准 的 出 台 ， 束 是 为 
了 规范 这 种 现象 ，POSIX 标 准 不 但 清楚 地 规定 了 前 一 章 中 提 到 的 引擎 
应 该 支持 的 元 字符 和 特性 ， 还 明确 规定 了 使 用 者 期 望 由 表达 式 获 得 的 
准确 结果 。 除 开 表 面 细 节 不 谈 ，DFA (也 就 是 电动 机 ) 显然 已 经 符合 
新 的 标准 ， 但 是 NFA 风 格 的 结果 却 与 此 不 一 ， 所 以 NFA 需 要 修改 才能 符 
合 标 准 。 这 样 一 来 ， 正 则 3 引 警 可 以 粗略 地 分 为 3 类 : 

eDFA (符合 或 不 符合 POSIX 标 准 的 都 属 此 类 ) 。 

e 传 统 型 NFA ° 

ePOSIX NFA. 

这 里 提 到 的 POSIX 是 匹配 意义 上 的 ， 也 就 是 说 ，POSIX 标 准 规定 的 
某 个 正则 表达 式 的 应 有 行为 (本章 稍 后 部 分 将 讨论 ; ; 而 不 是 指 
POSIX 标 准 引 入 的 匹配 特性 。 许 多 程序 支持 这 些 特性 ， 但 结果 与 POSIX 
规范 不 完全 一 致 。 

老式 (功能 极 少 的 ) 程序 ， 比 如 egrep、awk、lex 之 类 ， 一 般 都 是 
使 用 DFA 引 警 (电动 机 ) ， 所 以 ， 新 的 标准 只 是 肯定 了 既 有 的 情况 ， 
而 没有 大 的 改变 。 但 是 也 存在 一 些 汽 油 机 版 本 的 此 类 程序 ， 如 果 它 们 
需要 达到 POSIX 标 准 ， 就 需要 做 些 修改 。 通 过 了 加 州 排放 标准 测试 

(POSIX NFA) 的 汽油 机 能 够 产生 符合 标准 的 结果 ， 但 是 这 些 必 要 的 
修改 会 增加 保养 的 难度 。 以 前 ， 错 位 的 火花 塞 也 能 应 付 着 使 用 ， 但 现 
在 根本 就 点 不 着 火 。 以 前 还 能 “凑合 ”的 汽油 ， 现 在 会 弄 得 发 动机 侠 寿 
乱 啊 。 不 过 ， 一 旦 掌握 其 中 的 门道 ， 发 动机 就 能 平稳 安静 地 运转 了 。 


几 句 题 外 话 


From the Department of Redundancy Department 

ME, FEA AA, BASRA SBS o HPA 
ARE Ke FEE Aj TEM BRA SUF RA SSE o BER HW S| HIE A 
考 。 尤 其 是 ， 为 什么 说 电动 机 (DEFA 引 擎 ) 只 是 “能 够 运行 ”。 什 么 影响 
了 汽油 机 (NFA) ? 使 用 NFA 引 警 时 ， 应 该 如 何 调整 才能 获得 期 望 的 结 
果 ? 通过 (排放 ) 测试 的 POSIX DFA 有 什么 特别 之 处 ? 现实 中 “熄火 的 
Bee et Ae 


测试 引擎 的 类 型 


Testing the Engine Type 

工具 所 采用 的 引擎 的 类 型 ， 决 定 了 引擎 能 够 文 持 的 特性 以 及 这 些 
特性 的 用 途 。 所 以 ， 通 常情 况 下 ， 我 们 只 需要 几 个 测试 用 的 表达 式 ， 
就 能 判断 出 程序 所 使 用 的 引擎 类 型 毕竟， 如 果 你 不 能 分 辨 引擎 的 类 
型 ， 这 种 分 类 就 没有 意义 ) 。 现 在 ， 我 并 不 期 望 读者 理解 下 面 的 这 些 
测试 原理 ， 我 只 是 提供 一 些 测试 表达 式 ， 即 使 读者 最 喜欢 使 用 的 软件 
没有 出 现在 表 4-1 之 内 ， 也 可 以 判断 出 引擎 的 类 型 ， 继 续 阅 读本 章 的 其 
他 内 容 。 

是 否 传统 型 NFA 

传统 型 NFA 是 使 用 最 广泛 的 引擎 ， 而 且 它 很 容易 识别 。 首 先 ， 看 
看 忽略 优先 量词 (6141) 是 否 得 到 文 持 ? 如 果 是 ， 基 本 就 能 确定 这 是 
传统 型 NFA。 我 们 将 要 看 到 ， 忽 略 优先 量词 是 DFA 不 支持 的 ， 在 
POSIX NFA 中 也 没有 和 意义。 为 了 确认 这 一 点 ， 只 需要 简单 地 用 正则 表 
达 式 nfalnfanot | 来 匹配 字符 捉 nfanot ， 如 果 只 有 “fa 匹配 了 ， 这 就 
是 传统 型 NFA。 如 果 整 个 ‘nfa not’ 都 能 匹配 ， 则 此 引擎 要 么 是 POSIX 
NFA, #4 ÆDFA ° 

DFA 还 是 POSIX NFA 

某 些 情况 下 ，DFA 与 POSIX NFA 的 区 别 是 很 明显 的 。DFA PE 
持 捕获 型 括号 (capturing parentheses) 和 回溯 (backreferences) ， 这 一 
点 有 助 于 判断 ， 不 过 ， 也 存在 同时 使 用 两 种 引擎 的 混合 系统 ， 在 这 种 
系统 中 ， 如 果 没 有 使 用 捕获 型 括号 ， 束 会 使 用 DFA 。 


下 面 这 个 简单 的 测试 能 说 明 很 多 问题 ， 用 X (C+) +X, 来 匹配 形 


ep'X(.+)+X' 


如 果 执 行 需 要 花 很 长 时 间 ， 就 是 NFA (如 果 上 一 项 测试 显示 这 不 
是 传统 型 NFA， 那 么 它 肯定 是 POSIX NFA) 。 如 果 时 间 很 得， 就 是 
DFA ， 或 者 是 文 持 某 些 高 级 优化 的 NEA。 如 果 显 示 堆 栈 超 溢 (stack 
overflow) ， 或 者 超时 退出 ， 那 么 它 是 NEFEA 引 警 。 


匹配 的 基础 


Match Basics 

在 了 解 不 同 引 擎 的 差异 之 前 ， 我 们 先 看 看 它们 的 相似 之 处 。 汽 车 
的 各 种 动力 系统 在 某 些 方面 是 一 样 的 (或 者 说 ， 从 实用 的 角度 考虑 ， 
它们 是 一 样 的 ) ， 所 以 ， 下 面 的 范例 也 能 够 适用 于 所 有 的 引擎 。 


关于 范例 


About the Examples 

本 章 关 注 的 是 一 般 的 提供 所 有 功能 的 正则 引擎 ， 所 以 ， 某 些 程序 
并 不 能 完全 支持 它们 。 在 本 书 所 说 的 汽车 里 ， 机 油 油 尺 (dipstick) 可 
能 挨 在 机 油 滤 清 器 (oil filter) 的 左边 ， 而 在 读者 那里 ， 它 却 装 在 分 电 
fiz: (distributor cap) 的 后 面 。 不 过 ， 读 者 要 做 的 只 是 理解 这 些 概念 ， 
能 够 使 用 和 维护 自己 最 喜欢 (以 及 他 们 最 感 兴趣 ) 的 正则 表达 式 包 。 

在 大 部 分 例子 中 ， 我 仍然 使 用 Perl 表示 法 ， 虽 然 我 偶尔 会 用 一 些 其 
他 的 表示 法 来 提醒 读者 ， 表 示 法 并 不 重要 ， 我 们 讨论 的 问题 与 程序 和 
表示 法 不 属于 一 个 层次 。 为 节省 篇 幅 ， 如 果 读 者 遇 到 不 熟悉 的 构建 方 
式 ， 请 查阅 第 3 章 (F114) 。 

本 章 详细 阐释 了 匹配 执行 的 实际 流程 。 理 想 的 情况 是 ， 所 有 的 知 
识 都 能 归纳 为 几 条 容易 记忆 的 简单 规则 ， 使 用 者 不 需要 了 解 这 些 规 则 
包含 的 原理 。 很 不 他， 事实 并 非 如 此 。 整 个 第 4 章 只 能 列 出 两 条 普 适 的 
原则 : 

1. 优 先 选 择 最 左 端 REFA) 的 匹配 结果 。 

2. 标 准 的 匹配 量词 ( 类 | 、 +j、? | 和 '{m, nh) 是 匹配 优 
先 的 。 

在 本 章 中 ， 我 们 将 考察 这 些 规 则 ， 它 们 的 结果 ， 以 及 其 他 许多 内 
容 。 首 先 我 们 详细 讨论 第 一 条 规则 。 


规则 1: 优先 选择 最 左 端的 匹配 结果 


Rule 1:The Match That Begins Earliest Wins 

根据 这 条 规则 ， 起 始 位 置 最 靠 左 的 匹配 结果 总 是 优先 于 其 他 可 能 
的 匹配 结果 。 这 条 规则 并 没有 规定 优先 的 匹配 结果 的 长 度 ( 稍 后 将 会 
Wit) ， 而 只 是 规定 ， 在 所 有 可 能 的 匹配 结果 中 ， 优 先 选 择 开 始 位 置 
最 左 端的 。 实 际 上 ， 因 为 可 能 有 多 个 匹配 结 采 的 起 始 位 置 都 在 最 左 
端 ， 也 许 我 们 应 该 把 这 条 规则 中 的 “ 某 个 匹配 结果 (a match) * 改 为 “该 
匹配 结果 (the match) ”， 不 过 这 上 听 起 来 有 些 别 扭 。 

这 条 规则 的 由 来 是 :匹配 先 从 需要 查找 的 字符 串 的 起 始 位 置 尝 试 
匹配 。 在 这 里 , “<i DLAC (attempt) ”的 意思 是 ， 在 当前 位 置 测试 整 
个 正则 表达 式 (可 能 很 复杂 ) 能 匹配 的 每 样 文本 。 如 果 在 当前 位 置 测 
试 了 所 有 的 可 能 之 后 不 能 找到 匹配 结果 ， 就 需要 从 字符 串 的 第 二 个 字 
从 之 前 的 位 置 开始 重新 尝试。 在 找到 匹配 结果 以 前 必须 在 所 有 的 位 置 
重复 此 过 程 。 只 有 在 尝试 过 所 有 的 起 始 位 置 (直到 字符 串 的 最 后 一 个 
字符 ) 都 不 能 找到 匹配 结果 的 情况 下 ， 才 会 报告 < 匹配 失败 ”。 

所 以 ， 如 果 要 用 ORA 来 匹配 FLORAL ， 从 字符 串 左 边 开 始 第 一 
轮 尝试 会 失败 (AA ORA, 不 能 匹配 FLO) ， 第 二 轮 尝 试 也 会 失败 

(“ORA | 同样 不 能 匹配 LOR) ， 从 第 三 个 字符 开始 的 尝试 能 够 成 功 ， 
所 以 引擎 会 停 下 来 ， 报 告 匹配 结果 ETQRAE o 

如 果 不 了 解 这 条 规划， 有 了 时候 就 不 能 理解 匹配 的 结 采 。 例 如 ， 用 
‘cat, 来 匹配 : 

The dragging belly indicates that your cat is too fat. 

结果 是 indieates， 而 不 是 后 来 出 现 的 cat。 单 词 cat 是 能 够 被 匹配 
的 ， 但 indicates 中 的 cat 出 现 的 更 早 ， 所 以 得 到 匹配 的 是 它 。 对 于 egrep 
之 类 的 程序 来 说 ， 这 种 差别 是 无 关 紧 要 的 ， 因 为 它 只 关心 <“ 是否” 能 够 
匹配 ， 而 不 是 “在 哪里 匹配。 但 如 果 是 进行 其 他 的 应 用 ， 例 如 查找 和 
AFR, IPA PR T o 

这 里 有 一 个 小 测验 (应 该 不 困难 ) : 如 果 用 fatlcatlbelly|your , 来 
匹配 字符 串 “The dragging belly indicates that your cat is too fat., RÆ 
HAVE? 可 请 看 下 一 页 。 

“传动 装置 (transmission) ”和 驱动 过 程 (bump-along) 


或 许 汽车 变速 箱 (译注 1) 的 例子 有 助 于 理解 这 条 规则 ， 芍 驶 员 在 
换 档 时 ， 变 速 箱 负责 连接 引擎 和 动力 系统 。 引 擎 是 真正 产生 动力 的 地 
A 〈 它 驱动 曲轴 ) ， 而 变速 箱 把 动力 传送 到 车 轮 。 

传动 装置 的 主要 功能 : 驱动 

如 果 引 擎 不 能 在 字符 串 开 始 的 位 置 找 到 匹配 的 结果 ， 传 动 装置 束 
会 推动 引擎， 从 字符 串 的 下 一 个 位 置 开始 尝试 ， 然 后 是 下 一 个 ， 再 下 
一 个 ， 如 此 继续 。 不 过 ， 如 果 某 个 正则 表达 式 是 以 “字符 串 起 始 位 置 销 
点 (start-of-string anchor) ”开头 的 ， 传 动 装置 就 会 知道 ， 不 需要 更 多 
的 笑 试 ， 因 为 如 来 能 够 匹配 ， 结 来 肯定 是 从 字符 串 的 头 部 开始 的 。 在 
第 6 章 中 ， 我 们 会 讲解 这 一 点 ， 以 及 更 多 的 内 部 优化 措施 。 


引擎 的 构造 


Engine Pieces and Parts 

所 有 的 引擎 都 是 由 不 同 的 零 部 件 组 合 而 成 的 。 如 果 对 这 些 零 件 缺 
和 之 了 解 ， 也 就 不 可 能 真正 理解 引 敬 的 工作 原理 。 正 则 引擎 中 的 这 些 零 
件 分 为 几 类 一 一 文字 字符 (literal characters) 、 量 词 (qualifiers) 、 字 
符 组 (character classes) 、 括 号 ， 等 等 ， 我 们 在 第 3 章 介 绍 过 (© 
114) 。 这 些 零 件 的 组 合 方式 〈 以 及 正则 引擎 对 它们 的 处 理 方式 ) 决定 
了 引擎 的 特性 ， 所 以 ， 这 些 零件 的 组 合 方式 ， 以 及 它们 之 间 的 配合 ， 
是 我 们 主要 天 注 的 东西 。 首 爷 ， 证 我 们 来 看 看 这 些 零 件 ; 

文字 文本 (Literal Text) 例如 a \、\ 类、! 、 枝 ... 

对 于 非 元 字符 的 文字 字符 ， 党 试 匹 配 时 需要 考 虚 就 是 “这 个 字符 与 
当前 笑 试 的 字符 相同 吗 ?”。 如 果 一 个 正则 表达 式 只 包含 纯 文本 字符 ， 
例如 ‘usa, ， 那 么 正则 引 警 会 将 其 视 为 : 一 个 u ， 接 着 一 个 s，， 接 
着 一 个 “al 。 进 行 不 区 分 大 小 写 的 匹配 时 的 情况 要 复杂 一 点 ， 因 为 
'b, 能 够 匹配 B， 而 B, 也 能 匹配 b， 不 过 这 仍然 不 难 理解 (Unicode 
的 情况 稍微 复杂 一 些 110) 。 

字符 组 、 点 号 、Unicode 属 性 及 其 他 

通常 情况 下 ， 字 符 组 、 点 号 、Unicode 属 性 及 其 他 的 匹配 是 比较 简 
单 的 : 无 论 字 符 组 的 长 度 是 多 少 ， 它 都 只 能 匹配 一 个 字符 ( 注 2) 。 


点 号 可 以 很 方便 地 表示 复杂 的 字符 组 ， 它 几乎 能 匹配 所 有 字符 ， 
所 以 它 的 作用 也 很 简单 ， 其 他 的 简便 方式 还 包括 Ww, WW, 和 
Ndj ° 
捕获 型 括号 
用 于 捕获 文本 的 括号 (而 不 是 用 于 分 组 的 括号 ) 不 会 影响 匹配 的 


过 程 


测验 答案 


© 148 页 测验 的 答案 

请 记 住 ,正则 表达 式 的 每 一 次 尝试 都 要 进行 到 底 ， 所 以 (fat 1cat |belly| your MAE 
配 ‘The dragging belly indicates your cat 1s too fat” 的 结果 不 是 fat, K 
管 fat, AAA THAR PAAR ATK, 

当然 ， 正 则 表达 式 应 该 也 能 够 匹配 fat 和 其 他 可 能 ， 但 它们 都 不 是 最 先 出 现 的 匹配 结 
R ( 除 现在 最 左边 的 结果 ) ， 所 以 不 会 被 选择 。 在 进行 下 一 轮 尝试 之 前 ,正则 表达 式 的 
所 有 可 能 部 会 党 试 ,也 就 是 说 , AGMA, fati cati bellyifo your MLMBR, 


BA (eg, A, Nz, ' (? <=\d) j...) 

销 点 可 以 分 为 两 大 类 : 简单 销 点 (A+ $>\G > \b>...129) ME 
杂 锚 点 (例如 顺序 环视 和 逆序 环视 呈 133) 。 简 单 锚 点 之 所 以 得 名 ， 就 
在 于 它们 只 是 检查 目标 字符 串 中 的 特定 位 置 的 情况 (^、\Z...) ， 或 者 
是 比较 两 个 相 邻 的 字符 (\<、\b、...) 。 相 反 ， 复 杂 锚 点 (环视 ) 能 
包含 任意 复杂 的 子 表达 式 ， 所 以 它们 也 可 以 任意 复杂 。 

非 < 电动 ”的 括号 、 反 向 引用 和 忽略 优先 量词 

虽然 本 章 希 望 讲 解 的 是 引擎 之 间 的 相似 之 处 ， 但 为 了 方便 读者 理 
解 本 章 余下 的 内 容 ， 这 里 必须 指出 一 些 有 意义 的 差异 。 捕 获 括号 (A 
及 相应 的 反 向 引用 和 $1 表 示 法 ) 就 像 汽 油 添加 剂 一 样 一 一 它们 只 对 汽 
油 机 (NEFA) 起 作用 ， 对 电动 机 (DFA) 不 起 作用 。 名 略 优 先 量词 也 是 
如 此 。 这 种 情况 是 由 DFA 的 工作 原理 决定 的 GES) 。 这 解释 了 ， 为 什 


么 DFA 引 擎 不 文 持 这 些 特性 。 读 者 会 看 到 ，awk、lex 和 egrep 都 不 文 持 
反 向 引用 和 $1 功 能 (表示 法 ) 。 

也 许 读者 会 注意 到 ，GNU 版 本 的 egrep 确实 文 持 反 同 引用 。 这 是 
因为 它 包 含 了 两 台 不 同 的 引擎。 它 首 先 使 用 DFA 查找 可 能 的 匹配 结 
果 ， 再 用 NFA (支持 包括 反 向 引用 在 内 的 所 有 特性 ) 来 确认 这 些 结 
果 。 接 下 来 ， 我 们 将 看 到 DFA 不 能 支持 反 同 引用 及 捕获 括号 的 原因 ， 
以 及 这 种 引 警 能 够 存在 的 理由 (DFA 有 很 多 显著 的 优势 ， 例 如 匹配 速 
度 非常 快 ) o 


规则 2: 标准 量词 是 匹配 优先 的 


Rule 2:The Standard Quantifiers Are Greedy 
至 今 为 止 ， 我 们 看 到 的 特性 都 非常 易 届 。 但 仅仅 靠 它们 还 很 不 够 
要 完成 复杂 点 的 任务 ， 就 需要 使 用 星 号 、 加 号 、 多 选 结构 之 类 功 
能 更 强大 的 元 字符 。 要 彻底 理解 这 些 功能 ， 需 要 学 习 更 多 的 知识 。 

读者 首先 需要 记 住 的 是 ， 标 准 匹配 量词 (? se > +, UAK {min, 
max}) 都 是 “匹配 优先 (greedy) ”的 。 如 果 用 这 些 量词 来 约束 某 个 表达 
st, flan! (expr) *, 中 的 (expr) , > la? ,中 的 al 和 [0-9]+， 
中 的 [0-9]， ， 在 匹配 成 功 之 前 ， 进 行 尝试 的 次 数 是 存在 上 限 和 下 限 
的 。 在 前 面 的 章节 中 我 们 已 经 提 到 过 这 一 点 一 一 而 规则 2 表明 ， 这 些 
党 试 总 是 希望 获得 最 长 的 匹配 〈 一 些 工 具 提 供 了 其 他 的 匹配 量词 ， 但 
是 本 节 只 讨论 标准 的 匹配 优先 量词 )。 

简 而 言 之 ， 标 准 匹配 量词 的 结果 “可 能 ?并非 所 有 可 能 中 最 长 的 ， 
但 它们 总 是 尝试 匹配 尽 可 能 多 的 字符 ， 直 到 匹配 上 限 为 止 。 如 果 最 终 
结果 并 非 该 表达 式 的 所 有 可 能 中 最 长 的 ， 原因 肯定 是 匹配 字符 过 多 导 
致 匹配 失败 。 举 个 简单 的 例子 : 用 '\b\wts\b, 来 匹配 包含 's: 的 字符 
串 ， 比 如 说 segexes'， w+ 完全 能 够 匹配 整个 单词 ， 但 如 果 用 “w+ ， 
来 匹配 整个 单词 ，「s, 就 无 法 匹配 了 。 为 了 完成 匹配 ， nwt 必须 匹 
配 ‘zegexes”， 把 最 后 的 "sib, 留 出 来 。 


如 果 表 达 式 的 其 他 部 分 能 够 成 功 匹 配 的 唯一 条 件 是 ， 匹 配 优 先 的 
结构 不 匹配 任何 字符 ， 在 容许 零 匹 配 (译注 2) 的 情况 下 (例如 使 用 星 


号 、 问 号 ， 或 者 {0，max} ， 这 是 没有 问题 的 。 不 过 ， 这 种 情况 只 有 在 
表达 式 的 后 续 部 分 强迫 下 才能 发 生 。 匹 配 优先 量词 之 所 以 得 名 ， 是 因 
为 它们 总 是 (或 者 ， 至 少 是 尝试 ) 匹配 多 于 匹配 成 功 下限 的 字符 。 

匹配 优先 的 性 质 可 以 非常 有 用 〈 有 时 候 也 非常 讨厌 ) 。 它 可 以 用 
来 解释 '[0-9]+ | 为 什么 能 匹配 March:1998 中 的 所 有 数字 。1 匹 配 之 后 ， 
实际 上 已 经 满足 了 成 功 的 下 限 ， 但 此 正则 表达 式 是 匹配 优先 的 ， 所 以 
它 不 会 停 在 此 处 ， 而 会 继续 下 去 ， 继 续 匹配 “998: ， 直 到 这 个 字符 串 的 
末尾 〈 因 为 “[0-9] | 不 能 匹配 字符 串 最 后 的 空 档 ， 所 以 会 停 下 来 ) 。 

邮件 主题 

显然 ， 这 种 匹配 方式 并 非 只 能 用 于 匹配 数字 。 举 例 来 说 ， 如 有 果 我 
们 需要 判断 E-mail 的 header 中 的 某 行 字符 是 否 标题 行 (subject line) 
前 面 (55) 我 们 已 经 说 过 ， 可 以 用 ASubject: | 来 实现 。 不 过 ， 如 果 
使 用 “Subject:*(.*)1， 我 们 就 能 在 之 后 的 程序 中 使 用 捕获 型 括号 来 
访问 主题 的 内 容 (例如 Perl 中 的 $1) (译注 3) 。 

EIRY x 匹配 邮件 主题 之 前 ， 请 读者 记 住 , 一旦 Subject: 
| 能 够 部 分 匹配 ， 整 个 正则 表达 式 束 一 定 能 够 全 部 匹配 。 因 为 
ASubject: .| 之 后 没有 字符 会 导致 表达 式 匹 配 失 败 : Lx 永远 不 会 
失败 ， 因 为 “不 匹配 任何 字符 ”也 是 .类 |， 的 可 能 结果 之 一 。 

那么 ， 为 什么 要 添加 .类 | 呢 ? 这 是 因为 我 们 知道 ， 星 号 是 匹配 优 
完 的 ， 它 会 用 点 号 匹配 尽 可 能 多 的 字符 ， 所 以 我 们 用 它 来 “填充 ”$1 。 
事实 上 ， 括 号 并 没有 影响 正则 表达 式 的 匹配 过 程 ， 在 本 例 中 ， 我 们 只 
是 用 它们 来 包括 '. 炎 ,匹配 的 字符 。 

Lx 到 达 字 符 串 的 末尾 之 后 点 号 不 能 继续 匹配 ， 所 以 星 号 最 终 

停 下 来 ， 党 试 匹配 表达 式 中 的 下 一 个 元 素 (尽管 .类 无 法 继续 匹配 
了 ， 但 下 面 的 子 表达 式 或 许 能 够 继续 匹配 ) 。 不 过 ， 因 为 本 例 中 不 存 
在 后 面 的 元 素 ， 到 达 表 达 式 的 末尾 之 后 ， 我 们 就 获得 了 成 功 的 匹配 结 
果 o 

过 度 的 匹配 优先 


现在 让 我 们 回 过 头 去 看 “ 尽 可 能 匹配 ?的 匹配 优先 量词 。 如 采 我 们 
在 上 面 的 例子 中 增加 一 个 . 兴 ，， 把 正则 表达 式 写 作 
“^Subject:…(.*) .x， 结 果 会 是 如 何 呢 ? 答案 是 ， 没 有 变化 。 开 头 的 
ik, (括号 中 的 ) 会 霸占 整个 标题 的 文本 ， 而 不 给 第 二 个 .类 ， 留 下 
任何 字符 。 而 第 二 个 「. 类 ， 的 匹配 失败 并 不 要 紧 ， 因 为 “. 尖 ， 不 匹配 任 
何 字符 也 能 成 功 。 如 果 我 们 给 第 二 个 .类 ， 也 加 上 括号 ，$2 将 会 是 空 
白 o 

这 是 否 说 明 ， 在 正则 表达 式 中 ，'. 淡 , 的 部 分 没有 机 会 匹配 任何 字 
符 呢 ? 答案 显然 是 否定 的 。 就 像 我 们 在 “\w+s| 这 个 例子 中 看 到 的 ， 如 
果 进 行 全 部 匹配 必须 这 样 做 ， 表 达 式 中 的 某 些 部 分 可 能 “强迫 ”之 前 匹 
配 优 先 的 部 分 “释放 ”( 或 者 说 “交还 (unmatch) ”) 某 些 字符 。 

[人 .类 ([0-9][0-9]) ， 或 许 是 个 有 用 的 正则 表达 式 ， 它 能 够 匹配 一 
行 字符 的 最 后 两 位 数字 ， 如 果 有 的 话 ， 然 后 将 它们 存储 在 $1 中 。 下 面 
是 匹配 的 过 程 : Cx) 首先 匹配 整 行 ， 而 “[0-9] [0-9], 是 必须 匹配 的 ， 
EZRM RARS AM, SMES): “ME, RERIK 
多 了 ， 交 出 一 些 字符 来 吧 ， 这 样 我 没准 能 匹配 。” 匹 配 优先 组 件 首先 会 
匹配 尽 可 能 多 的 字符 ， 但 为 了 整个 表达 式 的 匹配 ， 它 们 通常 需要 “ 释 
放 ” 一 些 字 符 (抑制 自己 的 天 性 ) 。 当 然 ， 它 们 并 不 “愿意 ”这 样 做 ， 只 
是 不 得 已 而 为 之 。 当 然 ,“ 交 还” 绝 不 能 破坏 匹配 成 立 必须 的 条 件 ， 比 
如 加 号 的 第 一 次 匹配 。 

明白 了 这 一 点 ， 我 们 来 看 人 类 ([0-9][0-9] ) , wŒ 
Ac ‘about-24-characters-‘long’ Hite ° 1.x |， 匹配 整个 字符 串 以 后 ， 第 一 
个 '[0-9] | 的 匹配 要 求 .大 ， 释放 一 个 字符 ‘g (最 后 的 字符 ) 。 但 是 这 
并 不 能 让 '[0-9] | DEBE, RELA. | 必须 继续 “交还 ”字符 ， 接 下 来 交还 
的 字符 是 ‘nm?。 如 此 循环 15 次 ， 直 到 .类 | 最 终 释放 ‘4 为 止 。 

不 幸 的 是 ， 即 使 第 一 个 "[0-9], 能 够 匹配 4， 第 二 个 "[0-9] | 仍然 
不 能 匹配 。 为 了 匹配 整个 正则 表达 式 ， .类 ， 必须 再 次 释放 一 个 字符 ， 
这 次 是 ‘2'， 由 第 一 个 [0-9] | 匹配 。 现 在 ，'4' 能 够 由 第 二 个 “[0-9] | 匹 
配 ， 所 以 整个 表达 式 匹 配 的 是 “about*24;char… "，$1 的 值 是 :24。 


先 来 先 服务 

如 果 用 “人 ^. 炎 [0-9]+ | 来 匹配 一 行 的 最 后 两 个 数字 ， 期 望 匹配 的 不 止 
是 最 后 两 位 数字 ， 而 是 最 后 的 整个 数 ， 结 果 会 是 多 长 呢 ? 如 果 用 它 来 
DU Bc ‘Copyright 2003.*， 结 果 是 什么 ? WERE MK ° 

深入 细节 

在 这 里 必须 澄清 一 些 东 西 。 因 为 * .类 |， 必须 交还 .…? 或 者 * [0-9] ， 
人 迫使 ..….” 之 类 的 说 法 或 许 容易 引起 混淆 。 我 使 用 这 些 说 法 是 因为 它们 易 
于 理解 ， 而 且 跟 实际 的 结果 一 致 。 不 过 ， 事 情 的 真相 是 由 基本 的 引擎 
类 型 决定 一 -是 DFA， 还 是 NFA。 现 在 我 们 就 来 看 这 些 。 


表达 式 主导 与 文本 主导 


Regex-Directed Versus Text-Directed 

DFA 和 和 NFA 反映 了 将 正则 表达 式 在 应 用 算法 上 的 根本 差异 。 我 把 对 
应 汽油 机 的 NFA 称 为 “表达 式 主导 (regex-directed) ”3 引 警 ， 而 对 应 电动 
机 的 DFA 称 为 “文本 主导 (text-directed) ”3 引 警 。 


NEFA 引 警 : 表达 式 主导 


NFA Engine:Regex-Directed 

我 们 来 看 用 ‘to (nitelknight|night) ， VEACICAX*.. tonight...’ 的 一 种 
办 法 。 正 则 表达 式 从 t 开始 ， 每 次 检查 一 部 分 (由 引擎 查看 表达 式 的 
一 部 分 ) ， 同 时 检查 “当前 文本 (current text) "是否 匹配 表达 式 的 当前 
部 分 。 如 果 是 ， 则 继续 表达 式 的 下 一 部 分 ， 如 此 继续 ， 直 到 表达 式 的 
所 有 部 分 都 能 匹配 ， 即 整个 表达 式 能 够 匹配 成 功 。 


测验 答案 


o 153 页 测验 的 答案 

用 '^.*([0-9]+) | 匹配 ‘copyright 2003."， 持 号 会 捕获 到 什么 9 

这 个 表达 式 的 本 意 是 捕获 整个 数字 2003， 但 结果 并 非 如 此 ， 之 前 已 经 说 过 ， 为 了 满足 
To- 二 的 匹配 ，,% 必 须 交 还 一 些 字 符 。 在 这 个 例子 中 ， 帮 放 的 字符 是 最 后 的 “3， 
和 点 号 ， 之 后 “3 ”能够 由 【0-9]) 匹配 。[0-9)) 由 上 + 量词 修饰 ， 所 以 现在 还 只 做 到 
了 最小 的 匹配 可 能 ， 现 在 它 遇 到 了 “,"， 找 不 到 其 他 可 以 匹配 的 字符， 

与 之 前 不 同 ,此 时 没有 “必须 "匹配 的 元 素 ， 所 以 ;不 会 被 连 交 出 0。 否则，[0-9]+ 
应 当心 存 感激 ， 接 受 匹 配 优先 元 素 的 镇 赠 ， 但 请 记 住 “ 先 来 先 服务 ”原则 。 匹 配 优先 
的 结构 只 会 在 被 迫 的 情况 下 交还 字符 。 所 以 ， 最 终 $1 的 值 是 “3 : 

如 果 读 者 觉得 难以 理解 ,不 炉 这 样 起 ，[0-9]+1 和 [0-9]* 差不多 ,而 本 例 中 [0-9]* 
和 .1 是 一 样 的 。 用 它 来 将 换 原 来 的 表达 式 “,*([0-9]+))， 我 们 得 到 “。*(,*)1， 这 
与 152 页 的 “Subject:*(.*) ,和 很 相似 ， 第 二 个 ,* 不 会 匹配 任何 字符 。 


4 ‘to (nitelknightlnight) | 的 例子 中 ， 第 一 个 元 素 是 't，， 它 将 会 
重复 尝试 ， 直 到 在 目标 字符 串 中 找到 b 为 止 。 之 后 ， 就 检查 紧 随 其 后 
的 字符 是 否 能 由 'o，, 匹配 ， 如 果 能 ， 就 检查 下 面 的 元 素 。 在 本 例 
H, “下 面 的 元 素 ” 指 ”nitelknightlnight) ， 它 的 真正 含义 是 “i'nite | 或 
者 knight | KR ‘night, ”。 引 警 会 依次 尝试 这 3 种 可 能 。 我 们 (具有 
高 级 神经 网 络 的 人 类 ) 能 够 发 现 ， 如 果 待 匹配 的 字符 串 是 tonight， 第 
三 个 选择 能 够 匹配 。 不 论 神 经 学 起 源 (85) 如 何 ， 表 达 式 主导 的 引 
擎 必须 完全 测试 ， 才 能 得 出 结论 。 

尝试 'nite 的 过 程 与 之 前 一 样 : “学 试 匹 配 n, AAE li, A 
后 是 't，， 最 后 是 e| 。” 如 果 这 种 尝试 失败 一 一 就 像 本 例 ， 引 擎 会 党 
试 另 一 种 可 能 ， 如 此 继续 下 去 ， 直 到 匹配 成 功 或 是 报告 失败 。 表 达 式 
中 的 控制 权 在 不 同 的 元 素 之 间 转 换 ， 所 以 我 称 它 为 “表达 式 主导 ”。 

NEFA 引 擎 在 操作 上 的 优点 


实质 上 ， 在 表达 式 主 寻 的 匹配 过 程 中 ， 每 一 个 子 表达 式 都 是 独立 
的 。 这 不 同 于 反 同 引用 ， 子 表达 式 之 间 不 存在 内 在 联系 ， 而 只 坪 整 个 
正则 表达 式 的 各 个 部 分 。 在 子 表 达 式 与 正则 表达 式 的 控制 结构 (多 选 
分 文 、 括 号 以 及 匹配 量词 ) 的 层级 关系 (layout) 控制 了 整个 匹配 过 
程 。 

因为 NFA 引 警 是 正则 表达 式 主导 的 ， 区 驶 员 (也 就 是 编写 表达 式 
的 人 ) 有 充足 的 机 会 来 实现 他 /她 期 望 的 结果 (第 5 章 和 第 6 章 将 会 告诉 
读者 ， 如 何 正确 高 效 地 实现 目标 ) 。 现 在 看 起 来 ， 这 点 还 有 些 模 糊 ， 


但 过 一 上 段 束 会 变 清 晰 。 


DFA3 引 | 擎 : 文本 主导 


DFA Engine:Text-Directed 
与 表达 式 主导 的 NFA 不 同 ，DFA3 引 | 警 在 扫描 字符 串 时 ， 会 记录 “ 当 
Bil (currently in the works) ”的 所 有 匹配 可 能 。 具 体 到 tonight 的 例 
子 ，3 引 苟 移动 到 t 时 ， 它 会 在 当前 处 理 的 匹配 可 能 中 添加 一 个 潜在 的 可 
能 : 
字符 串 中 的 位 置 正则 表达 式 中 的 位 置 
after’*t onight* 可 能 的 匹配 位 置 ; t o(nite| knight |night), 
接 下 来 扫描 的 每 个 字符 ， 都 会 更 新 当前 的 可 能 匹配 序列 。 继 续 扫 
摘 两 个 字符 以 后 的 情况 是 : 


字符 串 中 的 位 置 正则 表达 式 中 的 位 置 


after…toni ght: 可 能 的 匹配 位 置 ， to(ni telknight |ni ght) 


有 效 的 可 能 匹配 变 为 两 个 (knight 被 淘汰 出 局 ) 。 扫 描 到 g 时 ， 就 
只 剩 下 一 个 可 能 匹配 了 。 当 h 和 tt 匹配 完成 后 ， 引 警 发 现 匹配 已 经 完成 ， 
报告 成 功 。 

我 称 这 种 方式 为 “文本 主导 ”， 是 因为 它 扫 摘 的 字符 串 中 的 每 个 字 
符 都 对 引擎 进行 了 控制 。 在 本 例 中 ， 某 个 未 完成 的 匹配 也 许 是 任意 多 
个 (只 要 可 行 ) 匹配 的 开始 。 不 合适 的 匹配 可 能 在 扫描 后 继 文字 时 会 
被 去 除 。 在 某 些 情况 下 , “处 理 中 的 未 终结 匹配 (partial match in 


progress) ”可 能 就 是 一 个 完整 的 匹配 。 例 如 正则 表达 式 to 
(...) ? ，， 括 号 内 的 部 分 并 不 是 必须 出 现 的 ， 但 考虑 到 匹配 优先 的 性 
质 ， 引 擎 仍然 会 演 试 匹配 括号 内 的 部 分 。 匹 配 过 程 中 ， 在 和 演 试 括号 内 
的 部 分 时 ， 完 整 匹配 (‘to’) 已 经 保留 下 来 ， 以 应 付 括 号 中 的 内 容 无 法 
匹配 的 情况 。 
如 末 引 擎 发 现 ， 文 本 中 出 现 的 某 个 字符 会 令 所 有 处 理 中 的 匹配 可 
能 失效 ， 就 会 返回 某 个 之 前 保留 的 完整 匹配 。 如 采 不 存在 这 样 的 完整 
匹配 ， 则 要 报告 在 当前 位 置 无 法 匹配 。 


第 一 想法 比较 NFA 与 DFA 


First Thoughts:NFA and DFA in Comparison 

如 果 读 者 根据 上 面 介绍 的 知识 比较 NFA 和 DFA， 可 能 会 得 出 结论 : 
一 般 情况 下 ， 文 本 主导 的 DFA 引 擎 要 快 一 些 。 正 则 表达 式 主导 的 NFA 引 
AAR ET NCAR AAA FIAT AC, BRE SIR BAY 
间 (就 好 像 上 面 例子 中 的 3 个 分 支 ) 。 

这 个 结论 是 对 的 。 在 NFA 的 匹配 过 程 中 ， 目 标 文 本 中 的 某 个 字符 
可 能 会 被 正则 表达 式 中 的 不 同 部 分 重复 检测 (甚至 有 可 能 被 同一 部 分 
反复 检测 ) 。 即 使 某 个 字 表 达 式 能 够 匹配 ， 为 了 检查 表达 式 中 剩 下 的 
部 分 ， 找 到 匹配 ， 它 也 可 能 需要 再 一 次 应 用 〈 甚 至 可 能 反复 多 次 ) 。 
单独 的 子 表达 式 可 能 匹配 成 功 ， 也 可 能 失败 ， 但 是 ， 直 到 抵达 正则 表 
达 式 的 末尾 之 前 ， 我 们 都 无 法 确 知 全 局 匹配 成 功 与 否 (也 就 是 说 “不 到 
最 后 关头 不 能 分 胜 负 (It’s not over until the fat lady sings) ”， 但 这 人 句 话 
又 不 符合 本 段 的 语 境 ) 。 相 反 ，DFA 引 擎 则 是 确定 型 的 

(deterministic ) 目标 文本 中 的 每 个 字符 只 会 检查 (最 多 ) 一 遍 。 

对 于 一 个 已 经 匹配 的 字符 ， 你 无 法 知道 它 是 否 属于 最 终 匹配 〈 它 可 能 
属于 最 终 会 失败 的 匹配 ) ， 但 因为 引擎 同时 记录 了 所 有 可 能 的 匹配 ， 
这 个 字符 只 需要 检测 一 次 ， 如 此 而 已 。 

正则 表达 式 引擎 所 使 用 的 两 种 基本 技术 ， 都 对 应 有 正式 的 名 字 : 
非 确定 型 有 穷 目 动机 (NFA) 和 确定 型 有 穷 目 动机 (DFA) 。 这 两 个 名 
字 实 在 是 太 饶 舌 ， 所 以 我 坚持 只 用 DFA 和 NFA。 下 文中 不 会 出 现 它们 
的 全 称 了 ( 注 4) ° 


用 户 需要 面 对 的 结果 

因为 NFA 具 有 表达 式 主导 的 特性 ，3 引 擎 的 匹配 原理 就 非常 重要 。 
我 已 经 说 过 ， 通 过 改变 表达 式 的 编写 方式 ， 用 户 可 以 对 表达 式 进 行 多 
方面 的 控制 。 拿 tonight 的 例子 来 说 ， 如 果 改 变 表 达 式 的 编写 方式 ， 可 
能 会 节省 很 多 工夫 ， 比 如 下 面 这 3 种 方式 : 

o Tto(ni(ghtlte)lknight), 

e | tonite|toknight|tonight , 

e | to(k?night{nite) , 

给 出 任意 文本 ， 这 3 个 表达 式 都 可 以 捕获 相同 的 结果 ， 但 是 它们 
以 不 同 的 方式 控制 引擎 。 现 在 ， 我 们 还 无 法 分 辨 这 3 者 的 优 和 劣 ， 不 过 接 
下 来 会 看 到 。 

DFA 的 情况 相反 一 一 引 敬 会 同时 记录 所 有 的 匹配 选择 ， 因 为 这 3 个 
表达 式 最 终 能 够 捕获 的 文本 相同 ， 在 写法 上 的 差异 并 无 意义 。 取 得 一 
个 结果 可 能 有 上 百 种 途径 ， 但 因为 DFA 能 够 同时 记录 它们 (有 点 神 
奇 ， 待 稍 后 详 述 ) ， 选 择 哪 一 个 表达 式 并 无 区 别 。 对 纯粹 的 DFA 来 
Ui, RIME ‘abc, 和 [aa-a] (blb{1}lb) c 看 来 相差 巨大 ， 但 其 实 是 一 样 
HY o 

如 有 果 要 描述 DFA， 我 能 想到 的 特征 有 : 

eDFA 匹配 很 迅速 。 

eDFA LAER — FX ° 

e 谈 论 DFA 匹 配 很 恼人 。 

最 终 我 会 展开 这 3 点 。 

因为 NFA 是 表达 式 主导 的 ， 谈 论 它 是 件 很 有 意思 的 事情 。NFA 为 创 
造 性 思维 提供 了 丰富 的 施展 空间 。 调 校 好 一 个 表达 式 能 市 来 许多 收 
益 ， 调 校 不 好 则 会 带 来 严重 后 果 。 这 束 好 比 发 动机 的 熄火 和 点 不 着 
火 ， 他 们 并 不 只 是 汽油 发 动机 的 专利 。 为 了 彻底 弄 明日 这 个 问题 ， 我 
们 来 看 NFA 最 重要 的 部 分 : EX (backtracking) 。 


EA 


Backtracking 

NFA 引擎 最 重要 的 性 质 是 ， 它 会 依次 处 理 各 个 子 表达 式 或 组 成 元 
素 ， 遇 到 需要 在 两 个 可 能 成 功 的 可 能 中 进行 选择 的 时 候 ， 它 会 选择 其 
一 ， 同 时 记 住 另 一 个 ， 以 备 稍 后 可 能 的 需要 。 

需要 做 出 选择 的 情形 包括 量词 CREA AAA KEE) 和 多 
选 结构 CREAMS ito, BPR Mei) 。 

不 论 选 择 那 一 种 途径 ， 如 采 它 能 匹配 成 功 ， 而 且 正 则 表达 式 的 余 
下 部 分 也 成 功 了 ， 匹 配 即 告 完成 。 如 果 正 则 表达 式 中 余下 的 部 分 最 终 
匹配 失败 ， 引 擎 会 知道 需要 回溯 到 之 前 做 出 选择 的 地 方 ， 选 择 其 他 的 
备用 分 支 继 续 尝试。 这 样 ， 引 警 最终 会 尝试 表达 式 的 所 有 可 能 途径 
(或 者 是 匹配 完成 之 前 需要 的 所 有 途径 ) 。 


真实 世界 中 的 例子 :面包 悄 


A Really Crummy Analogy 

回溯 就 像 是 在 道路 的 每 个 分 岔口 留 下 一 小 扒 面 包 居 。 如 有 果 走 了 死 
路 ， 束 可 以 照 原 路 返回 ， 直 到 巡 见 面包 悄 标 示 的 尚未 笑 试 过 的 道路 。 
如 果 那 条 路 也 走 不 通 ， 你 可 以 继续 返回 ， 找 到 下 一 堆 面 包 悄 ， 如 此 重 
复 ， 直 到 找到 出 路 ， 或 者 走 完 所 有 没有 笑 试 过 的 路 。 
在 许多 情况 下 ， 正 则 引 警 必须 在 两 个 (或 更 多 ) 选项 中 做 出 选择 
我 们 之 前 看 到 的 分 支 的 情况 束 是 一 例 。 男 一 个 例子 是 ， 在 直到 
Tox? .| 时， 引 敬 必须 决定 是 否 尝试 匹配 x, 。 对 于 和...x+... 的 
情况 ， 毫 无 疑问 ，'x | 至少 尝试 匹配 一 次 一 一 因为 加 号 要 求 必须 匹配 
至 少 一 次 。 第 一 个 x| 匹配 之 后 ， 此 要 求 已 经 满足 ， 需 要 决定 是 否 尝 
试 下 一 个 _ xj。 如果 决 定 进行 ， 还 要 决定 是 否 匹 配 第 三 个 xj ， 第 四 
个 xj ， 如 此 继续 。 每 次 选择 ， 其 实 就 是 酒 下 一 堆 “ 面 包 届 ”"， 用 于 提 
示 此 处 还 有 男 一 个 可 能 的 选择 (目前 还 不 能 确定 它 能 否 匹 配 ) ， 保 留 
起 来 以 备用 。 


一 个 简单 的 例子 

现在 来 看 个 完整 的 例子 ， 用 先前 的 “to (nitelknighthnight) | 匹配 
字符 串 ‘hottonic: tonight! (看 起 来 有 点 无 聊 ， 但 是 个 好 例子 。 第 一 
个 元 素 t 从 字符 串 的 最 左 端 开始 尝试 ， 因 为 无 法 匹配 中， 所 以 在 这 
个 位 置 匹配 失败 。 传 动 装 置 于 是 驱动 引擎 辣 后 移动 ， 从 第 二 个 位 置 开 
始 匹 配 (同样 也 会 失败 ) ， 然 后 是 第 三 个 。 这 时 候 't 能够 匹配 ， 接 
下 来 的 'o | 无 法 匹配 ， 因 为 字符 串 中 对 应 位 置 是 一 个 空格 。 至 此 ， 本 
轮 尝试 宣告 失败 。 

继续 下 去 ， 从 ... tonic... 开 始 的 尝试 则 很 有 意思 。to 匹 配 成 功 之 
后 ， 剩 下 的 3 个 多 选 分 支 都 成 为 可 能 。 引 苟 选取 其 中 之 一 进行 尝试 ， 
留 下 其 他 的 备用 (也 就 是 酒 下 一 些 面包 悄 ) 。 在 讨论 中 ， 我 们 假定 引 
擎 首先 选择 的 是 nite | 。 这 个 表达 式 被 分 解 为 " ni + li, + t+ 
le”, Æ... topi,c… 遭 遇 失 败 。 但 此 时 的 情况 与 之 前 不 同 ， 这 种 失 
败 并 不 意味 着 整个 表达 式 匹 配 失败 一 一 因为 仍然 存在 没有 尝试 过 的 多 
选 分 支 (就 好 像 是 ， 我 们 仍然 可 以 找到 先前 留 下 的 面包 届 ) 。 假 设 引 
获 然 后 选择 'knight，， 那 么 马上 就 会 遭遇 失败 ， 因 为 'k, 不 能 
Ew o MERR TEET night, , (LE ABER > AN ‘night , 
是 最 后 尝试 的 选项 ， 它 的 失败 也 就 意味 着 整个 表达 式 在 .tonic... 的 
位 置 匹配 失败 ， 所 以 传动 机 构 会 驱动 引 敬 继续 前 进 。 

直到 引擎 开 始 从 ...;tonight! 处 开始 匹配 ， 情 况 又 变 得 有 趣 了 。 这 
一 次 ， 多 选 分 支 nigh, 终于 可 以 匹配 字符 串 的 结尾 部 分 了 (于 是 整 
体 匹 配 成 功 ， 现 在 引擎 可 以 报告 匹配 成 功 了 ) 。 


回溯 的 两 个 要 点 


Two Important Points on Backtracking 

回溯 机 制 的 基本 原理 并 不 难 理解 ， 还 是 有 些 细节 对 实际 应 用 很 重 
要 。 它 们 是 ， 面 对 众多 选择 时 ， 哪 个 分 文 应 当 首 移 选 择 ? WET 
时 ， 应 该 选取 哪个 保存 的 状态 ? 第 一 个 问题 的 答案 是 下 面 这 条 重要 原 
Ml): 


如 果 需 要 在 “进行 党 试 ? 和 * 跳 过 党 试 > 之 间 选 择 ， 对 于 匹配 优先 量词 ， 
引擎 会 优先 选择 “进行 尝试 ”， 而 对 于 忽略 优先 量词 ， 会 选择 “ 跳 过 党 
inl” ° 

此 原则 影响 深远 。 对 于 新 手 来 说 ， 它 有 助 于 解释 为 什么 匹配 优先 
的 量词 是 “匹配 优先 ”的 ， 但 还 不 完整 。 要 想 彻 底 弄 清楚 这 一 点 ， 我 们 
需要 了 解 回 淹 时 使 用 的 是 哪个 〈 或 者 是 哪些 个 ) 之 前 保存 的 分 支 ， 答 
案 是 : 
距离 当前 最 近 储存 的 选项 就 是 当 本 地 失败 强制 回溯 时 返回 的 。 使 用 的 

原则 是 LIFO (last in first out， 后 进 先 出 ) 。 

用 面包 居 比 喻 就 很 好 理解 一 -如 果 前 面 是 死路 ， 你 只 需要 沿 原 路 
返回 ， 直 到 找到 一 堆 面 包 导 为 止 。 你 会 遇 到 的 第 一 堆 面 包 居 就 是 最 近 
酒 下 的 。 传 统 的 LIFO 比 喻 也 是 这 样 : PRESALE, BABLE 
的 盘子 肯定 是 最 先 拿 下 来 的 。 


备用 状态 


Saved States 
用 NEFA 正 则 表达 式 的 术语 来 说 ， 那 些 面 包 导 相当 于 “备用 状态 
(saved state) ”。 它 们 用 来 标记 : 在 需要 的 时 候 ， 匹 配 可 以 从 这 里 重 

新 开始 党 试 。 它 们 保存 了 两 个 位 置 : 正则 表达 式 中 的 位 置 ， 和 未 尝试 
的 分 文 在 字符 串 中 的 位 置 。 因 为 它 是 NFA 匹 配 的 基础 ， 我 们 需要 再 看 
一 人 裔 菜 些 已 经 出 现 过 的 简单 但 详细 的 例子 ， 说 明 这 些 状 态 的 意义 。 如 
果 你 党 得 现 有 的 内 容 都 不 难 懂 ， 请 继续 阅读 。 

未 进行 回溯 的 匹配 

来 看 个 简单 的 例子 ， 用 “ab? c) 匹配 abc。 'a, 匹配 之 后 ， 匹 配 的 
当前 状态 如 下 : 


‘ 


abe’ ab?cl 
现在 轮 到 'b? 了， 正则 引 警 需 要 决定 : 是 需要 尝试 b 呢 ， 还 


征 跳 过 ? 因为? 是 匹配 优先 的 ， 它 会 尝试 匹配 。 但 是 ， 为 了 确保 在 这 
个 竹 试 最 终 失 败 之 后 能 够 恢复 ，3 引 擎 会 把 : 


“a be’ | ‘ab? wc 
添加 到 备用 状态 序列 中 。 也 融 是 说 ， 稍 后 引 警 可 以 从 下 面 的 位 置 
继续 匹配 : 从 正则 表达 式 中 的 “b? | 之后， 字符 串 的 b 之 前 (也 就 是 当 
前 的 位 置 ) 匹配 。 这 实际 上 就 是 跳 过 'b 的 匹配 ， 而 问号 容许 这 样 
做 。 
引 警 放 下 面包 悄 之 后 ， 就 会 继续 向 前 ， 检 查 'b，。 在 示例 文本 
中 ， 它 能 够 匹配 ， 所 以 新 的 当前 状态 变 为 : 


; 
ab c ab? c) 
A A 


RAH 'c, 也 能 成 功 匹配 ， 所 以 整个 匹配 完成 。 备 用 状态 不 再 需 
要 了 ， 所 以 不 再 保存 它们 。 

进行 了 回溯 的 匹配 

如 果 需 要 匹配 的 文本 是 ‘ac? ， 在 尝试 b 之 前 ， 一 切 都 与 之 前 的 
过 程 相同 。 显 然 ， 这 次 b, 无 法 匹配 。 也 就 是 说 ， 对 '...? | 进行 尝试 
的 路 走 不 通 。 因 为 有 一 个 备用 状态 ， 这 个 “局 部 匹配 失败 ”并 不 会 导致 
整体 匹配 失败 。3 引 擎 会 进行 回 滴 ， 也 束 古 说 ， 把 “当前 状态 ”切换 为 最 
近 保 存 的 状态 。 在 本 例 中 ， 情 况 束 古 : 


j 
ac ab? A 


E 'b, 党 试 之 前 保存 的 尚未 尝试 的 选项 。 这 时 候 ，“c, 可 以 匹配 
c， 所 以 整个 匹配 宣告 完成 。 

不 成 功 的 匹配 

现在 ,我们 用 同样 的 表达 式 匹配 ‘abX’。 在 尝试 'b, 以 前 ， 因 为 存 
在 问号 ， 保 存 了 这 个 备用 状态 : 


二 | lab? Gi 
Tb, 能 够 匹配 ， 但 这 条 路 往 下 却 走 不 通 了 ， 因 为 'c 无 法 匹配 
XX。 于 是 引擎 会 回潮 到 之 前 的 状态 ,“ 交 还 部 给 'c | 来 匹配 。 显 然 ， 这 
次 测试 也 失败 了 。 如 果 还 有 其 他 保存 的 状态 ， 回 渊 会 继续 进行 ， 但 是 


此 时 不 存在 其 他 状态 ， 在 字符 串 中 当前 位 置 开始 的 整个 匹配 也 就 宣告 
失败 。 

事情 到 此 结束 了 吗 ? 没有 。 传 动 装置 会 继续 “在 字符 串 中 前 行 ， 再 
次 尝试 正则 表达 式 ”， 这 可 能 被 想象 为 一 个 伪 回 滴 (pseudo- 
backtrack) ° 匹配 重新 开始 于 : 


“a bx’ | | ab?c) 
从 这 里 重新 开始 整个 匹配 ， 如 同 之 前 一 样 ， 所 有 的 道路 都 走 不 
通 。 接 下 来 的 两 次 (从 ab,X 到 abxX,) 都 告 失败 ， 所 以 最 终 会 报告 匹配 
失败 。 
忽略 优先 的 匹配 
现在 来 看 最 开始 的 例子 ， 使 用 忽略 优先 匹配 量词 ， 用 ab? ? c 
来 匹配 ‘abe*。 ‘a, 匹配 之 后 的 状态 如 下 : 


| f 
‘a be’ a b??c) 
A A 


接 下 来 轮 到 rb? ? ，， 引 警 需 要 进行 选择 ， 尝 试 匹配 bd, , RE 
忽略 ? 因为 ? ? 是 忽略 优先 的 ， 它 会 首先 尝试 忽略 ， 但 是 ， 为 了 能 够 
从 失败 的 分 支 中 恢复 ， 引 擎 会 保存 下 面 的 状态 ， 


“a bc | ʻa be: 
到 备用 状态 列表 中 。 于 是 ， 引 擎 稍 后 能 够 用 正则 表达 式 中 的 b， 
来 尝试 匹配 文本 中 的 b 《我 们 知道 这 能 够 匹配， 但 是 正则 引擎 不 知 
道 ， 它 甚至 都 不 知道 是 否 会 要 用 到 这 个 备用 状态 ) 。 状 态 保存 之 后 ， 
它 会 继续 癌 前 ， 沿 着 忽略 匹配 的 路 走 下 去 : 


Po, 无 法 匹配 bY?， 所 以 引 敬 必须 回溯 到 之 前 保存 的 状态 : 


- 
a be’ a bcj 
i A 


显然 ， 此 时 匹配 可 以 成 功 ， 接 下 来 的 “ci DERE co FERITE 
了 与 使 用 匹配 优先 的 ab? cy 同样 的 结果 ， 虽 然 两 者 所 走 的 路 不 相 
同 。 


回溯 与 匹配 优先 


Backtracking and Greediness 

如 条 工具 软件 使 用 的 是 NFA 正 则 表达 式 主导 的 回调 引擎 ， 理 解 正 
则 表达 式 的 回溯 原理 就 成 了 高 效 完成 任务 的 关键 。 我 们 已 经 看 到 ? | 
的 匹配 优先 和 ? ? | 的 忽略 优先 是 如 何 工作 的 ， 现 在 来 看 星 号 和 加 
5 o 
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如 果 认 为 Pee 基本 等 同 于 'x? x? x? x? x? x? ...| (或 者 更 确 
切 地 说 是 ' (x (x (x (x...?)?)?)?)?) ,) GES) ,那么 
情况 与 之 前 没有 大 的 差别 。 每 次 测试 星 号 作用 的 元 素 之 前 ， 引 擎 都 会 
保存 一 个 状态 ， 这 样 ， 如 果 测 试 失败 〈 或 者 测试 进行 下 去 遭遇 失 
MW) ， 还 能 够 从 保存 的 状态 开始 匹配 。 这 个 过 程 会 不 断 重 复 ， 直 到 包 
舍 星 号 的 答 试 完全 失败 为 止 。 

所 以 ， 如 果 用 '[0-9]+, VERE ‘a 1234-num’, '[0-9], 遇 到 4 之 后 的 
空格 无 法 匹配 ， 而 此 时 加 号 能 够 回调 的 位 置 对 应 了 四 个 保存 的 状态 : 
a 1 234 num 
a 12 34 num 
a 123 4 num 
a 1234. num 

也 就 是 说 ， 在 每 个 位 置 ， [0-9] | 的 尝试 都 代表 一 种 可 能 。 在 “[0- 
9] | 遇 到 空格 匹配 失败 时 ， 引 警 回溯 到 最 近 保 存 的 状态 (也 就 是 最 下 
面 的 位 置 ) ， 选择 正则 表达 式 中 的 "ro-9+ ,和 文本 中 的 


a*1234 num，。 当 然 ， 到 此 整个 正则 表达 式 已 经 结束 ， 所 以 我 们 知 
， 整 个 匹配 宣告 完成 


请 注意 ， a*,1234"num "并 不 在 列表 中 ， 因 为 加 号 限定 的 元 素 至 
少 要 匹配 一 次 ， 这 是 必要 条 件 。 那 么 ， 如 果 正 则 表达 式 是 10-914, 
这 个 状态 会 保存 吗 ? (提示 : 这 个 问题 得 动 点 脑筋 。 要 知道 答案 
可 请 翻 到 下 一 页 。 

重新 审视 更 完整 的 例子 

有 了 更 详细 的 了 解 之 后 ， 我 们 再 来 看 看 第 152 页 的 ^. 闪 ([0-9] 
[0-9]) 的 例子 。 这 一 次 ， 我 们 不 是 只 用 “匹配 优先 ”来 解释 为 什么 会 
得 到 那样 的 匹配 结果 ， 我 们 能 够 根据 NFA 的 匹配 机 制 做 出 精确 解释 。 

以 ‘CA-95472:US 和 A 为 例 。 在 '. 炎 | 成功 匹 配 到 字符 串 的 末尾 时 ， 
星 号 约束 的 点 号 匹配 了 13 个 字符 ， 同 时 保存 了 许多 备用 状态 。 这 些 状 
态 表 明 稍 后 的 匹配 开始 的 位 置 : 在 正则 表达 式 中 是 
人 ^.*，([0-9] [0-9])1， 在 字符 串 中 则 是 点 号 每 次 匹配 时 保存 的 备用 
状态 。 

现在 我 们 已 经 到 了 字符 串 的 末尾 ， 并 把 控制 权 交 给 第 一 个 '[0- 
9]， ， 显 然 这 里 的 匹配 不 能 成 功 。 没 问题 ， 我 们 可 以 选择 一 个 保存 的 
状态 来 进行 尝试 (实际 上 保存 了 许多 的 状态 ) 。 现 在 回溯 开始 ， 把 当 
前 状态 设置 为 最 近 保 存 的 状态 ， 也 就 是 '. 淡 ,匹配 最 后 的 A 之 前 的 状 
So AR (或 者 ， 如 果 你 愿意 ， 可 以 使 用 “交还 ”) 这 个 匹配 ， 于 是 有 
机 会 用 [0-9] | 匹配 这 个 A， 但 这 同样 会 失败 。 

这 种 “回潮 -尝试 * 的 过 程 会 不 断 循环 ， 直 到 引 敬 交还 2 为 止 ， 在 这 
里 ， 第 一 个 '[0-9], 可 以 匹配 。 但 是 第 二 个 “[0-9] | 仍然 无 法 匹配 ， 所 
以 必须 继续 回溯 。 现 在 ， 之 前 尝试 中 第 一 个 “[0-9] | 是 否 匹 配 与 本 次 党 
试 并 无 关系 了 ， 回 漳 机 制 会 把 当前 的 状态 中 正则 表达 式 内 的 对 应 位 置 
设置 到 第 一 个 “[0-9] 以前。 我 们 看 到 ， 当 前 的 回溯 同样 会 把 字符 串 中 
的 位 置 设置 到 7 以 前 ， 所 以 第 一 个 [0-9] | 可 以 匹配 ， 而 第 二 个 “[0-9] ， 
也 可 以 (匹配 2) 。 所 以 ， 我 们 得 到 一 个 匹配 结果 CA*95472,*USA ，， 
$1 得 到 72 ° 


? 


需要 注意 的 是 : 第 一 ， 回 漳 机 制 不 但 需要 重新 计算 正则 表达 式 和 
文本 的 对 应 位 置 ， 也 需要 维护 括号 内 的 子 表达 式 所 匹配 文本 的 状态 。 
在 匹配 过 程 中 ， 每 次 回调 都 把 当前 状态 中 正则 表达 式 的 对 应 位 置 指 辐 
括号 之 前 ， 也 就 是 Ao ([0-9][0-9]) ，。 在 这 个 简单 的 例子 中 ， 所 
以 它 等 价 于 “.* [0-9] [0-9]1， 因 此 我 说 “使 用 第 一 个 [0-9] 之 前 的 位 
置 ?。 然 而 ， 回 漳 对 括号 的 这 种 处 理 ， 不 但 需要 同时 维护 $1 的 状态 ， 也 
会 影响 匹配 的 效率 。 

最 后 需要 注意 的 一 点 也 许 读者 早 就 了 解 : 由 星 号 (或 其 他 任何 匹 
配 优先 量词 ) 限定 的 部 分 不 受 后 面 元 素 影响 ， 而 只 是 匹配 尽 可 能 多 的 
内 容 。 在 我 们 的 例子 中 ，“ +, 在 点 号 匹配 失败 之 前 ， 完 全 不 知道 ， 
到 底 应 该 在 哪个 数字 或 者 是 其 他 什么 地 方 停 下 来 。 在 ^. 兴 ([0- 
9]+) ， 的 例子 中 我 们 看 到 ，“[0-9]+ |， 只 能 匹配 一 位 数字 (153) ° 


关于 匹配 优先 和 回溯 的 更 多 内 容 


More About Greediness and Backtracking 
NFA 和 DFA 都 具备 许多 匹配 优先 相关 的 特性 (M PARAE ) 
(DFA 不 支持 忽略 优先 ， 所 以 我 们 现在 只 关注 匹配 优先 ) 。 我 将 考察 

两 种 引擎 共同 文 持 的 匹配 优先 特性 ， 但 只 会 用 NFA 来 讲解 。 这 些 内 容 
对 DFA 也 适用 ， 但 原因 与 NFA 不 同 。DFA 是 匹配 优先 的 ， 使 用 起 来 很 方 
便 ， 这 一 点 我 们 只 需要 记 住 就 够 了 ， 而 且 介 绍 起 来 也 很 乏味 。 相 反 ，， 
NFA 的 匹配 优先 就 很 值得 一 谈 ， 因 为 NFA 是 表达 式 主导 的 ， 所 以 匹配 
优先 的 特性 能 产生 许多 神奇 的 结果 。 除 了 忽略 优先 ，NEFA 还 提供 了 其 
他 许多 特性 ， 比 如 环视 、 条 件 判 断 (conditions) 、 反 向 引用 ， 以 及 固 
化 分 组 。 节 重要 的 是 NFA 能 让 使 用 者 直接 操控 匹配 的 过 程 ， 如 采 运 用 
得 当 ， 这 会 带 来 很 大 的 方便 ， 但 也 可 能 带 来 某 些 性 能 问题 (具体 见 第 6 
章 ) 。 


测试 答案 


© 162 页 测试 的 答案 

如 果 用 【0-9] 池 匹配 “a'1234'num ， 备 用 状态 是 否 包括 “a* 1234'num ? 
答案 是 否定 的 ， 之 所 以 提 这 个 问题 ， 是 因为 这 种 错误 很 常见 ， 记 得 吗 ， 由 星 号 限定 的 
部 分 总 是 能 够 匹配 。 如 果 整 个 表达 式 都 由 星 号 控制 ， 它 就 能 够 匹配 任何 内 容 ， 在 字符 
囊 的 开始 位 置 ， 传 动机 构 对 引擎 进行 第 一 次 党 试 时 的 状态 ， 当 然 莽 匹配 成 功 ， 在 这 种 
情况 下 ， 正则 表达 式 匹 配 “a'1234"num ， 而 且 在 此 处 结尾 一 一 人 根本 没有 和 触及 到 那 
ERF, 

如 果 没 答对 也 不 有 要紧 ， 因 为 这 种 情况 还 是 有 可 能 发 生 的 ， 如 果 在 表达 式 中 ，[0-9]*， 
之 后 还 出 现 了 菜 些 元 素 ， 因 为 它们 的 存在 ， 引 擎 在 达到 下 面 状态 之 前 无 法 区 得 全 局 匹 
R: 


M2, 尝试 “1” 会 生成 下 面 的 状态 : 


不 考虑 这 些 差异 的 话 ， 匹 配 的 结果 通 稼 是 相通 的 。 我 介绍 的 内 容 
适用 于 两 种 引擎 ， 除 了 使 用 表达 式 主导 的 NFA 引 擎 。 读 完 本 章 ， 读 者 
会 明日 ， 在 什么 情况 下 两 种 引擎 的 结果 会 不 一 样 ， 以 及 为 什么 会 不 一 
Ble 


匹配 优先 的 问题 


Problems of Greediness 

在 上 例 中 已 经 看 到 ，“ .大 ， 经 常会 匹配 到 一 行文 本 的 末尾 GE 
6) 。 这 是 因为 “. 炎 | 匹配 时 只 从 自身 出 发 ， 匹 配 尽 可 能 多 的 内 容 ， 只 
有 在 全 局 匹配 需要 的 情况 下 才 会 “被 迫 ?交还 一 些 字 符 。 有 些 时 候 问 题 
很 严重 。 来 看 用 一 个 匹配 双 引 号 文本 的 例子 。 读 者 首先 想到 的 可 能 是 


"ke" IBA, ASA BTM ABI oe | RR, F838 
用 它 匹 配 下 面 文本 的 结 

The name " McDonald's " is said " makudonarudo " in Japanese. 

既然 知道 了 匹配 原理 ， 其 实 我 们 并 不 需要 猜测 ， 因 为 我 们 “ 知 
道 ” 结 果 。 在 最 开始 的 双 引 号 匹配 之 后 ，“. 炎 | 能 够 匹配 任何 字符 ， 所 
以 它 会 一 直 匹 配 到 字符 串 的 末尾 。 为 了 让 最 后 的 双 引 号 能 够 匹配 ， 
大 | 会 不 断交 还 字符 〈 或 者 ， 更 确切 地 说 ， 是 正则 引擎 强迫 它 回 退 ) ， 
直到 满足 为 止 。 最 后 ， 这 个 正则 表达 式 匹 配 的 结果 束 是 : 
The name "McDonald's" is said "makudonarudo" in Japanese. 

这 显然 不 是 我 们 期 望 的 结果 。 我 之 所 以 提醒 读者 不 要 过 分 依赖 “. 
类 | ， 这 就 是 原因 之 一 ， 如 果 不 注意 匹配 优先 的 特性 ， 结 果 往 往 出 平 意 
料 。 

那么 ， 我 们 如 何 能 够 只 取得 " McDonald's " We? 关键 的 问题 在 于 要 
认识 到 ， 我 们 希望 匹配 的 不 是 双 3 引 号 之 间 的 “任何 文本 ， 而 是 “ 除 双 引 
号 以 外 的 任何 文本 。 如 果 用 “[ 和 ^" ] 尖 | 取代 .大 ， ， 就 不 会 出 现 上 面 的 
问题 。 

使 用 A |e" WN, TEMS) SBA ER LAE 
的 。 第 一 个 双 引 号 匹配 之 后 ， TA" , 会 匹配 尽 可 能 多 的 字符 。 在 
本 例 中 ， 就 是 McDonald's, KA "1 无 法 匹配 之 后 的 双 引 号 。 此 
时 ， 控 制 权 转移 到 正则 表达 式 末尾 的 ”| 。 而 它 刚好 能 够 匹配 ， 所 以 
获得 全 局 匹配 : 


The name "McDonald's", is said "makudonarudo" in Japanese. 


事实 上 ， 可 能 还 存在 一 种 出 乎 读者 预料 的 情况 ， 因 为 在 大 多 数 流 
派 中 ， [A " J 能 够 匹配 换行 符 ， 而 点 号 则 不 能 。 如 果 不 想 让 表达 式 匹 
配 换 行 符 ， 可 以 使 用 TA" \n], ° 


多 字符 “引文 ” 


Multi-Character"Quotes" 


第 1 章 出 现 了 对 HTML tagh LAC, aN, Aae HE <B> very 
</B> 中 的 “very” 泻 染 为 粗 体 。 对 <B>...</B> 的 匹配 党 试看 起 来 与 
对 双 引 号 匹配 的 情形 很 相似 ， 只 是 “ 双 引 号 ”在 这 里 成 了 多 字符 构成 的 
<B> 和 </B>。 与 双 引 号 字符 串 的 例子 一 样 ， 使 用 '. 火 | 匹配 多 字 
ES CP te oH 

**+*<B>Billions</B> and <B>Zillions</B>, of suns::: 

[<B>.* </B>, PIERREK Lk 会 一 直 匹配 该 行 结尾 的 字 
符 ， 回 漳 只 会 进行 到 </B> | 能 够 匹配 为 止 ， 也 就 是 最 后 一 个 < 尼 
> ， 而 不 是 与 匹配 开头 的 [<B> | WWHT </B>] 。 

不 幸 的 是 ， 因 为 结束 tag 不 是 单个 字符 ， 所 以 不 能 用 之 前 的 办 法 ， 
也 就 是 “排除 型 字符 组 ”来 解决 ， 即 我 们 不 能 期 望 用 <B>[^</B>]* 
</B> | 解决 问题 。 字 符 组 只 能 代表 单个 字符 ， 而 我 们 需要 的 ”</B 
> | 是 一 组 字符 。 请 不 要 被 B>] 迷惑 ， 它 只 是 表示 一 个 不 等 于 
<、>>、/、B 的 字符 ， 等 价 于 “[N<>B], ， 而 这 显然 不 是 我 们 想 要 
的 “ 除 </B> 结 构 之 外 的 任何 内 容 ”( 当 然 ， 如 果 使 用 环视 功能 ， 我 们 可 
以 规定 ， 在 某 个 位 置 不 应 该 匹配 '</B>， ， 下 一 节 会 出 现 这 种 应 
用 ) 


使 用 忽略 优先 量词 


Using Lazy Quantifiers 

上 上面 的 问题 之 所 以 会 出 现 ， 原 因 在 于 标准 量词 是 匹配 优先 的 。 某 
些 NFA 支 持 忽 略 优 先 的 量词 (141) , x? 就 是 与 * 对 应 的 忽略 优先 
量词 。 我 们 用 [<B>.X? </B> 来 匹配 : 

...<B~>Billions</B> and < B> Zillions </B > of suns... 

开始 的 T<B> , 匹配 之 后 ，". 炎 ? ， 首 先决 定 不 需要 匹配 任何 字 
符 ， 因 为 它 是 忽略 优先 的 。 于 是 ， 控 制 权 交 给 后 面 的 '< | 符号 : 


‘...<B> Billions:’ <B>.*? </B>] 
A 


此 时 “< 无 法 匹配 ， 所 以 控制 权 交还 给 . 兴 ? ，， 因 为 还 有 未 学 
试 过 的 匹配 可 能 (事实 上 能 够 进行 多 次 匹配 尝试 ) 。 它 的 匹配 党 试 是 
步步为营 的 (begrudgingly) ， 先 用 点 号 来 匹配 ...<B>Billions… 中 带 
下 画 线 的 B。 此 时 ， 关 ? 又 必须 移 择 ， 是 继续 壬 试 匹配 ， 还 是 忽略 ? 
为 它 是 忽略 优先 的 ， 会 首先 选择 忽略 。 接 下 来 的 ”< | 仍然 无 法 匹配 ， 
所 以 .类 ? | 必须 继续 尝试 未 匹配 的 分 支 。 在 这 个 过 程 重复 8 次 之 后 ， 
.类 ? 最终 匹配 了 Billions， 此 时 ， 解 下 来 的 '< ， (以 及 整个 '</B 
>) 都 能 匹配 : 

…<B>Bil1ions</B> and <B>Zillions</B> of suns… 

所 以 我 们 知道 了 ， 星 号 之 类 的 匹配 优先 量词 有 时 候 的 确 很 方便 ， 
但 有 时 候 也 会 市 来 大 麻烦 。 这 时 候 ， 名 略 优 移 的 量词 残 能 派 上 用 场 
了 ， 因 为 它们 做 到 其 他 办 法 很 难 做 到 〈 甚 至 无 法 做 到 ) 的 事情 。 当 
SR, 缺乏 经 验 的 程序 员 也 可 能 错误 地 使 用 忽略 优先 量词 。 事 实 上 ,我 
们 刚刚 做 的 或 许 就 不 正确 。 如 果 用 “<B>. 大 ? </B> | 来 匹配 : 


…<B>Billions and <B>Zillions</B> of suns…: 


结果 如 上 图 ， 虽 然 我 假设 匹配 的 结果 取决 于 具体 的 需求 ， 但 我 仍 
然 认 为 ， 这 种 情况 下 的 结果 不 是 用 户 期 望 的 。 不 过 ， .类 ? ， 必 然 会 匹 
配 Zillions 左 边 的 <B> ， 一 直到 </B> 。 

这 个 例子 很 好 地 说 明了 ， 为 什么 通常 情况 下 ， 名 上 略 优先 量词 并 不 
是 排除 类 的 完美 替身 。 在 「 " .类 ”， 的 例子 中 ,使 用 “[^" 1, 替换 点 号 
能 避免 跨越 引号 的 匹配 一 这 正 是 我 们 硕 望 实现 的 功能 。 

如 果 支 持 排 除 环 视 (133) ， 我 们 就 能 得 到 与 排除 型 字符 组 相当 
的 结果 。 比 如 ，”(? ! <B>) | 这 个 测试 ， 只 有 当 <B> 不 在 字符 串 
中 的 当前 位 置 时 才能 成 功 。 这 也 是 '<B>.x*? </B>, 中 的 点 号 期 望 
匹配 的 内 容 ， 所 以 把 点 号 改 为 '( (? ! <B>) .) | 得 到 的 正则 表达 
式 ， 束 能 准确 匹配 我 们 期 望 的 内 容 。 把 这 些 综合 起 米 ， 结 采 有 点 儿 难 
看 懂 ， 所 以 我 选用 带 注释 的 宽松 排列 模式 (111) 来 讲解 : 


<B> # 匹配 开头 的 <B> 

( # 然后 只 匹配 尽 可 能 少 的 内 容 
(2?! <B> ) # 如 果 不 是 <B>... 
# .任何 字符 都 可 以 

)*? # 

</B> #  .。.。 直 到 遇 到 结束 标记 


使 用 了 环视 功能 之 后 ， 我 们 可 以 重新 使 用 普通 的 匹配 优先 量词 ， 
这 样 看 起 来 更 清楚 : 
<B> 


( 
(2?2! </? B>) 


匹配 开头 的 <B> 
然后 匹配 尽 可 能 多 的 内 容 
qo RAHK<B>, #AH</B> ... 
: .任何 字符 都 可 以 
)* (现在 是 匹配 优先 的 量词 ) 
</B> # <ANNO> ..。 直 到 结束 分 隔 符 匹配 
现在 ， 环 视 功 能 会 禁止 正则 表达 式 的 主体 (main body) 匹配 <B 
> 和 </B> 之 外 的 内 容 ， 这 也 是 我 们 之 前 试图 用 忽略 优先 量词 解决 的 
问题 ， 所 以 现在 可 以 不 用 忽略 优先 功能 了 。 这 个 表达 式 还 有 能 够 改进 
的 地 方 ， 我 们 将 在 第 6 章 关 于 效率 的 讨论 中 看 到 它 (270) ° 


匹配 优先 和 忽略 优先 都 期 望 获 得 匹配 


Greediness and Laziness Always Favor a Match 

回忆 一 下 第 2 章 中 显示 价格 的 例子 (651) 。 我 们 会 在 本 章 的 多 个 
地 方 仔细 检 查 这 个 例子 ， 所 以 我 先 重申 一 下 基本 的 问题 ， 因 为 浮 扣 数 
的 显示 问题 ， “1.625” 或 者 “3.00” 有 时候 会 变 
成 “1.62500000002828” 和 “3.00000000028822”。 为 解决 这 个 问题 ， 我 使 
用 : 

$price=~s/(\.\d\d[1-9]?)\d * /$1/; 

来 保存 $price 小 数 点 后 头 两 到 三 位 十 进 制 数 字 。 Naad) 匹配 最 开 
台 两 位 数字 ， 而 “[1-9]? , 用 来 匹配 可 能 出 现 的 不 等 于 零 的 第 三 个 数 
字 o 

然后 我 写 道 : 


+ $ 4 4 > 


到 现在 ， 我 们 能 够 匹配 的 任何 内 容 都 是 希望 保留 的 ， 所 以 用 括号 
包围 起 来 ， 作 为 $1 捕获 。 然 后 就 能 在 replacement 字 符 串 中 使 用 $1。 如 果 
这 个 正则 表达 式 能 够 匹配 的 文本 就 等 于 $1， 那 么 我 们 就 是 用 一 个 文本 
取代 它 本 和 映 一 一 这 没有 多 少 意义 。 然 而 ， 我 们 继续 匹配 $1 括号 之 外 的 
部 分 。 在 替代 字符 串 中 它们 并 不 出 现 ， 所 以 结果 就 是 它们 被 删 掉 了 。 
在 本 例 中 , “要 删 掉 ”的 文本 就 是 任何 多 余 的 数字 ， 也 就 是 正则 表达 式 
HOR EBAY Nd | 匹配 的 部 分 。 

到 现在 看 起 来 一 切 正 常 ， 但 是 ， 如 果 $price 的 数据 本 身 规范 格式 ， 
会 出 现 什 么 问题 呢 ? 如 果 $price 是 27.625， 那 么 \dvd[1-9]? ， 能够 匹配 
整个 小 数 部 分 。 因 为 \d 兴 | 无 法 匹配 任何 字符 ， 整 个 替换 就 是 
用 .625' 替 换 '.625' 一 一 相当 于 白费 工夫 。 

结果 当然 是 我 们 需要 的 ， 但 是 否 存 在 更 有 效率 的 办 法 ， 只 进行 真 
正 必要 的 替换 〈 也 就 是 ， 只 有 当 dx) 确实 能 够 匹配 到 某 些 字符 的 时 
候 才 替换 ) WE? 当然 ， 我 们 知道 怎样 表示 “至 少 一 位 数字 ”! 只 要 把 \d 
类 | 替换 为 \d+ | 就 好 了 : 

$price =~ s/(\.\d\d[1-9]?) \d+/$1/ 

对 于 “1.62500000002828” 这 样 复杂 的 数字 ， 正 则 表达 式 仍然 有 效 ; 
但 是 对 于 “9.43” 这 种 数字 ， 末 尾 的 \d+ | 不 能 匹配 ， 所 以 不 会 替换 。 所 
以 ， 这 是 个 了 不 起 的 改动 ， 对 吗 ? 不 ! 如 果 要 处 理 的 数字 是 27.625， 情 
况 如 何 呢 ? 我 们 希望 这 个 数字 能 够 被 忽略 ， 但 是 这 不 会 发 生 。 请 仔细 
想 想 27.625 的 匹配 过 程 ， 尤 其 是 表达 式 如何 处 理 '5 这 个 数字 。 

知道 答案 之 后 ， 这 个 问题 就 变 得 非常 简单 了 。 在 
人 AdaxdLl-9]?)N\dtl 匹 配 27.625 之 后 ， fd+ | 无 法 匹配 。 但 这 并 不 
会 影响 整个 表达 式 的 匹配 ， 因 为 就 正则 表达 式 而 言 ， 由 [1-9] | 匹 
配 55: 只 是 可 选 的 分 支 之 一 ， 还 有 一 个 备用 状态 尚未 尝试 。 它 容许 [1- 
9]? , 匹配 一 个 空 字符 ， 而 把 5 留 给 至 少 必须 匹配 一 个 字符 的 \d+ o 
于 是 ， 我 们 得 到 的 是 错误 的 结果 : .625 被 替换 成 了 .62。 

如 果 [1-9]? ， 是 忽略 优先 的 又 如 何 呢 ? 我 们 会 得 到 同样 的 匹配 结 
果 ， 但 不 会 有 “ 先 匹 配 5 再 回溯 ”的 过 程 ， 因 为 忽略 优先 的 [1-9]? ?| 


BCS Bis EAC A ac o ATLA, ART E m HA BE RIX PIA] 


题 。 
匹配 优先 、 忽 略 优先 和 回溯 的 要 虽 


The Essence of Greediness,Laziness,and Backtracking 

之 前 的 章节 告诉 我 们 ， 正 则 表达 式 中 的 某 个 元 素 ， 无 论 是 匹配 优 
先 ， 还 是 忽略 优先 ， 都 是 为 全 局 匹配 服务 的 ， 在 这 一 点 上 (对 前 面 的 
例子 来 说 ) 它们 没有 区 别 。 如 采 全 局 匹配 需要 ， 无 论 是 匹配 优先 (或 
是 忽略 优先 ) ， 在 遇 到 “本 地 匹配 失败 ?时 ， 引 擎 都 会 回归 到 备用 状态 
(按照 足迹 返回 找到 面包 导 ) ， 然 后 尝试 尚未 尝试 的 路 径 。 无 论 匹 配 
优先 还 是 忽略 优先 ， 只 要 引擎 报告 匹配 失败 ， 它 就 必然 尝试 了 所 有 的 
可 能 。 

测试 路 径 的 先后 顺序 ， 在 匹配 优先 和 忽略 优 移 的 情况 下 是 不 同 的 
(这 就 是 两 者 存在 的 理由 ) ， 但 是 ， 只 有 在 测试 完 所 有 可 能 的 路 径 之 
后 ， 才 会 最 终 报告 匹配 失败 。 

相反 ， 如 有 果 只 有 一 条 可 能 的 路 径 ， 那 么 使 用 匹配 优先 量词 和 忽略 
优先 量词 的 正则 表达 式 都 能 找到 这 个 结果 ， 只 是 他 们 党 试 路 径 的 次 序 
不 同 。 在 这 种 情况 下 ， 选 择 匹 配 优先 还 是 忽略 优先， 并 不 会 影响 匹配 
的 结果 ， 受 影响 的 只 是 引擎 在 达到 最 终 匹 配 之 前 需要 尝试 的 次 数 (这 
是 关于 效率 的 问题 ， 第 6 章 将 会 谈 到 ) 。 

最 后 ， 如 有 果 存 在 不 止 一 个 可 能 的 匹配 结果 ， 那 么 理解 匹配 优 移 、 
忽略 优先 和 回溯 的 读者 ， 就 明白 应 该 如 何 选择 。'" .类 "| 有 3 个 可 能 
的 匹配 结 


The name "McDonald's", s said "makudonarudo" in Japenese. 
——— as —______! = 
EL 


我 们 知道 ， 使 用 匹配 优先 星 号 的 『" ,类 ”， 匹配 最 长 的 结果 ， 而 使 
HARREESK "X? " 匹配 最 短 的 结果 。 


占有 优先 量词 和 固化 分 组 


Possessive Quantifiers and Atomic Grouping 


一 页 中 .625 的 例子 展示 了 关于 NEFA 匹 配 的 重要 知识 ， 也 让 我 们 
认识 “a 针对 这 个 具体 的 例子 ， 考 虑 不 仔细 就 会 带 来 问题 。 针 对 某 些 
流派 提供 了 工具 来 帮助 我 们 ， 但 是 在 接触 它们 以 前 ， 必 须 彻 底 乔 明 
日 “匹配 优先 、 名 上 略 优先 和 回 济 的 要 则 ”这 一 广 。 如 果 读 者 还 有 不 明日 
的 地 方 ， 请 务必 仔细 阅读 上 一 闻 。 

那么 ， 仍 然 来 考虑 2.625: 的 例子 ， 想 想 我 们 真正 的 目的 。 我 们 知 

， 如 果 匹 配 能 够 进行 到 ” (\\d\d[1-9]? ) d+, 中 标记 的 位 置 ， 我 们 
由 进行 回溯 。 也 就 是 说 ， 我 们 希望 的 是 ， 如 果 可 能 ，“[1-9] | 能 
够 一 个 字符 ， 果 真如 此 的 话 ， RAIDERIN ER o 或 者 说 的 更 
直 白 一 些 就 是 ， 如 果 需 要 的 话 ， 我 们 希望 在 “ [1-9], 匹配 的 字符 交还 之 
前 ， 整 个 表达 式 束 匹配 失败 。 (这 个 正则 表达 式 匹 配 '.625’ 时 的 问题 在 
于 ， 它 不 会 匹配 失败 ， 而 是 进行 回 滴 ， 尝 试 其 他 备用 状态 ) 。 

那么 ， 如 果 我 们 能 够 避免 这 些 备用 状态 呢 (也 就 是 在 [1-9] 进 行 尝 
试 之 前 ， 放 弃 ? | 保存 的 状态 ，) ? 如 果 没 有 退路 ，“[1-9] | 的 匹配 
ADRI © 而 这 就 是 我 们 需要 的 | 但 是 ， 如 果 没 有 了 这 个 备用 状态 
会 发 生 什么 ? 如 果 我 们 用 这 个 表达 式 来 匹配 .5000' 呢 ? 此 时 '[1-9] 不 
能 匹配 ， 就 确实 需要 回溯 ， 放 弃 [1-9] | ， 让 之 后 的 _\d+， 能 够 匹配 需 
要 删除 的 数字 。 

昕 起来， 我 们 有 两 种 相反 的 要 求 ， 但 是 仔细 考 虚 考 虚 束 会 发 现 ， 
我 们 真正 需要 的 是 ， 只 有 在 某 个 可 选 元 素 已 经 匹配 成 功 的 情况 下 才 掀 
弃 此 元 素 的 “忽略 状态。 也 就 是 说 ， 如 果 “ [1-9] | 能 够 成 功 匹 配 ， 就 必 
须 抽 芭 对 应 的 备用 状 巷 ， SA 。 如 果 正 则 表达 式 的 
流派 支持 固化 分 组 ' (? >...) , (139) ， 或 者 占有 优先 量词 “[1- 
9]? +, (F142) , renee 首先 来 看 固化 分 组 。 

用 (? >...) 实现 固化 分 组 

具体 来 说 ， 使 用 (2 >...) ， 的 匹配 与 正常 的 匹配 并 无 差别 ， 但 
是 如 果 匹 配 进行 到 此 结构 之 后 〈 也 就 是 ， 进 行 到 闭 括 号 之 后 ) ， 那 么 
此 结构 体 中 的 所 有 备用 状态 都 会 被 放弃 。 也 束 是 说 ， 在 固化 分 组 匹配 
结束 时 ， 它 已 经 匹配 的 文本 已 经 固化 为 一 个 单元 ， 只 能 作为 整体 而 保 
留 或 放弃 。 括 号 内 的 子 表 达 式 中 未 答 试 过 的 备用 状态 都 不 复 存 在 了 ， 


Fr DA Ted HA ak ze tS EE AAAS (至 少 是 ， 当 此 结构 匹配 完成 
Ay, “锁定 (locked in) ”在 其 中 的 状态 ) 。 

所 以 ， 让 我 们 来 看 ' (dd (? >[1-9]? ) ) dt) ° EESHA 
内 ， 量 词 能 够 正常 工作 ， 所 以 如 果 '[1-9], 不 能 匹配 ， 正 则 表达 式 会 返 
回 ? | 留 下 的 备用 状态 。 然 后 匹配 脱离 固化 分 组 ， 继 续 前 进 到 
\d+，。 在 这 种 情况 下 ， 当 控制 权 离开 固化 分 组 时 ， 没 有 备用 状态 需要 
WH (因为 在 固化 分 组 中 没有 创建 任何 备用 状态 ) 。 

如 果 '[1-9], 能 够 匹配 ， 匹 配 脱离 固化 分 组 之 后 ， '? ,| 保存 的 备 
用 状态 仍然 存在 。 但 是 ， 因 为 它 属 于 已 经 结束 的 固化 分 组 ， 所 以 会 被 
抛弃 。 匹 配 ‘.625’ 或 者 ‘.625000’ 时 就 会 发 生 这 种 情况 。 在 后 一 种 情况 
下 ， 放 弃 那 些 状态 不 会 带 来 任何 麻烦 ， 因 为 \d+ | 匹配 的 是 .625000, 
， 到 这 里 正则 表达 式 已 经 完成 匹配 。 但 是 对 于 .625’ 来 说 ， 因 为 \d+ 
无 法 匹配 ， 正 则 引擎 需要 回溯 ， 但 回 亢 又 无 法 进行 ， 因 为 备用 状态 已 
经 不 存在 了 。 既 然 没 有 能 够 回溯 的 备用 状态 ， 整 体 匹 配 也 就 失 
败 ，“.625’ 不 需要 处 理 ， 而 这 正 是 我 们 期 望 的 。 

固化 分 组 的 要 由 

从 第 168 页 开始 的 “匹配 优先 、 忽 略 优先 和 回 济 的 要 由 ”这 一 节 ， 说 
明了 一 个 重要 的 事实 ， 即 匹配 优先 和 忽略 优先 都 不 会 影响 需要 检测 路 
径 的 本 身 ， 而 只 会 影响 检测 的 顺序 。 如 果 不 能 匹配 ， 无 论 是 按照 匹配 
优先 还 是 包 略 优先 的 顺序 ， 最 终 每 条 路 径 都 会 被 测试 。 

然而 ， 固 化 分 组 与 它们 截然 不 同 ， 因 为 固化 分 组 会 放弃 某 些 可 能 
的 路 径 。 根 据 具体 情况 的 不 同 ， 放 弃 备用 状态 可 能 会 导致 不 同 的 结 
R. 

ZAE 如 果 在 使 用 备用 状态 之 前 能 够 完成 匹配 ， 固 化 分 组 就 不 
会 影响 匹配 。 我 们 刚刚 看 过 “.625000 的 匹配 。 全 局 匹配 在 备用 状态 尚 
未 起 作用 之 前 就 已 经 完成 。 

e 导 致 匹配 失败 放弃 备用 状态 可 能 意味 着 ， 本 来 有 可 能 成 功 的 匹配 
现在 不 可 能 成 功 了 。'6.25’ 的 例子 就 是 如 此 。 

e 改 变 匹 配 结果 在 某 些 情况 下 ， 放 弃 备 用 状态 可 能 得 到 不 同 的 匹配 


结果 


e 加 快报 告 匹 配 失败 的 速度 如 果 不 能 找到 匹配 对 象 ， 放 弃 备 用 状态 
可 能 能 让 正则 引 敬 更 快 地 报告 匹配 失败 。 先 做 个 小 测验 ， 然 后 我 们 来 
谈 这 点 。 

可 小 测验 : | (2 >. 类 ? ) | 是 什么 意思 ? 它 能 匹配 什么 文本 ? 请 
翻 到 下 页 查看 答案 。 

某 些 状态 可 能 保留 在 匹配 过 程 中 ， 引 警 退 出 固化 分 组 时 ， 放 弃 的 
只 是 固化 分 组 中 创建 的 状态 。 而 之 前 创建 的 状态 依然 保留 ， 所 以 ， 如 
果 后 来 的 回溯 要 求 退回 到 之 前 的 备用 状态 ， 固 化 分 组 部 分 匹配 的 文本 
会 全 部 交还 。 

使 用 固化 分 组 加 快 匹配 失败 的 速度 我 们 一 眼 就 能 看 出 ，' 八 w+: 
无 法 匹配 ‘Subject*， 因 为 ‘Subject* 中 不 仿冒 号 ， 但 正则 引擎 必 须 经 过 党 
试 才能 得 到 这 个 结论 。 

第 一 次 检查 : ,时 ， ‘w+, 已 经 匹配 到 了 字符 串 的 结尾 ， 保 存 了 
若干 状态 \w, 匹配 的 每 个 字符 ， 都 对 应 有 “忽略 ”的 备用 状态 (第 
一 个 除外 ， 因 为 加 号 要 求 至 少 匹配 一 次 ) o : | 无 法 匹配 字符 串 的 末 
尾 ， 所 以 正则 引擎 会 回溯 到 最 近 的 备用 状态 ; 


ANW+ :J 
A 


Ẹ- 


é à , 
Subjec t 


此 处 的 字符 是 中 ，“: ， 仍然 无 法 匹配 。 于 是 回溯 -测试 -失败 的 循 
环 会 不 断 发 生 ， 最 终 退 回 开始 的 状态 : 


ANAw+ 3 


é n é $ 
Subject 


此 处 仍然 无 法 匹配 成 功 ， 所 以 报告 整个 表达 式 无 法 匹配 。 


测验 答案 


o 171 页 测试 的 答案 

'(?>.*?) 会 匹配 什么 ? 

它 永 远 无 法 匹配 任何 字符 。 充 其 量 它 只 能 算是 个 相当 复杂 的 正则 表达 式 ， 但 不 匹配 任 
TPR, PUA .xj 的 急 略 优先 表示 ， 它 限定 的 是 一 个 点 号 ， 所 以 首选 的 分 支 就 是 急 
略 点 号 ， 把 匹配 点 号 的 状态 保留 下 来 各 用。 但 是 ， 这 个 保存 的 状态 马上 又 会 被 放弃 ， 
因为 匹配 退出 了 固化 分 组 ， 所 以 真正 尝试 的 只 有 息 略 点 号 的 分 支 。 总 是 被 息 略 的 东西 ， 
实际 上 相当 于 不 存在 ， 


我 们 只 消 看 一 眼 就 能 知道 ， 所 有 的 回 浏 都 是 白费 工夫 。 如 果 冒 号 
无 法 匹配 最 后 的 字符 ， 那 么 它 当 然 无 法 匹配 '+ 交还 的 任何 字符 。 

既然 我 们 知道 ，"\w+ 匹配 结束 之 后 ， 从 任何 备用 状态 开始 测试 
都 不 能 得 到 全 局 匹配 ， 就 可 以 命令 正则 引擎 不 必 检 查 它 们 : '^ (? > 
\wt) , 。 我 们 已 经 全 面 了 解 了 正则 表达 式 的 匹配 过 程 ， 可 以 使 用 固化 
分 组 来 控制 w+ 的 匹配 ， 放 弃 备用 的 状态 (因为 我 们 知道 它们 没有 
H) ， 提 高 效率 。 如 果 存 在 可 以 匹配 的 文本 ， 那 么 固化 分 组 不 会 有 任 
何 影 响 ， 但 是 如 果 不 存 在 能 够 匹配 的 文本 ， 放 弃 这 些 无 用 的 状态 会 让 
正则 引擎 更 快 地 得 出 无 法 匹配 的 结论 (先进 的 实现 也 许 能 够 自动 进行 
这 样 的 优化 ，251) ° 

我 们 将 在 第 6 章 看 到 (第 269 页 ， 固 化 分 组 非常 有 价值 ， 我 怀疑 
它 可 能 会 成 为 最 常用 的 技巧 。 


占有 优先 量词 ，? +、 火 +、++ 和 {fm,，n}+ 


Possessive Quantifiers,?+,++,++,and{m,n}+ 

占有 优先 量词 与 匹配 优先 量词 很 相似 ， 只 是 它们 从 来 不 交还 已 经 
匹配 的 字符 。 我 们 在 ' 和 w+ 的 例子 中 看 到 ， 加 号 在 匹配 结束 之 前 创建 
了 很 少 的 备用 状态 ， 而 占有 优先 的 加 号 会 直接 放弃 这 些 状态 (或 者 ， 
更 形象 地 说 ， 并 不 会 创造 这 些 状态 ) 。 


你 也 许 会 想 ， 占 有 优先 量词 和 固化 分 组 关系 非常 紧密 。 像 \w++ | 
这 样 的 占有 优先 量词 与 \? >\w+) | 的 匹配 结果 完全 相同 ， 只 是 写 
起 来 更 加 方便 而 已 〈 注 7) 。 使 用 占有 优先 量词 ，[^ (? >\W+) : | 
aA Aw: | , (Wd\d (? >[1-9]? ) ) \d+ | 写 做 
' (\\d\d[1-9]? +) 和 d+ ，。 请 务必 区 分 (? >M) +, 和 (? 
M+) |， 。 前 者 放弃 M 创建 的 备用 状态 ， 因 为 “M | 不 会 制造 任何 状 
态 ， 所 以 这 样 做 没什么 价值 。 而 后 者 放弃 “M+ | 创造 的 未 使 用 状态 ， 
这 样 做 显然 有 意义 。 

比较 1 (2 >M) +, Ml! (2 >M+) | ， 显 然后 者 就 对 应 于 
'M++， ， 但 如 果 表 达 式 很 复杂 ， 例 如 ”Q\" IA") 类 + ， 从 占有 优 
先 量词 转换 为 固化 分 组 时 大 家 往往 会 想到 在 括号 中 添加 ‘? > 得 到 「 
(? >\W" A") 类)。 这 个 表达 式 或 许 有 机 会 实现 你 的 目的 ， 但 它 显 
然 不 等 于 那个 使 用 占有 优先 量词 的 表达 式 ， 它 就 好 像 是 把 M++ | 写作 
| (2 >M) + | 一样。 正确 的 办 法 是 ， 去 掉 表示 占有 优先 的 加 号 ， 用 
固化 分 组 把 余下 的 部 分 包括 起 来 :  (? > WW" IA") *) je 


环视 中 的 回溯 


The Backtracking of Lookaround 

初 看 时 并 不 容易 认识 到 ,环视 ( 见 第 2 章 ，59) 与 固化 分 组 和 
占有 优先 量词 有 紧密 的 联系 。 环 视 分 为 4 种 ， 肯 定型 (positive) FB 
定型 (negative) ， 顺 序 环视 与 逆序 环视 。 它 们 只 是 简单 地 测试 ， 其 中 
表达 式 能 否 在 当前 位 置 匹 配 后 面 的 文本 (顺序 环视 ) ， 或 者 前 面 的 文 
本 (逆序 环视 ) 。 

深入 点 看 ， 在 NFA 的 世界 中 包含 了 备用 状态 和 回溯 ， 环 视 是 怎么 
实现 的 ? 环视 结构 中 的 子 表达 式 有 目 己 的 世界 。 它 也 会 体 存 备用 状 
态 ， 进 行 必 要 的 回 湖 。 如 采 整 个 子 表达 式 能 够 成 功 匹 配 ， 结 果 如 何 
呢 ? 肯 定型 环视 会 认为 自己 匹配 成 功 ， 而 否定 环视 会 认为 匹配 失败 。 
在 任何 一 种 情况 下 ， 因 为 关注 的 只 是 匹配 存在 与 否 (在 刚才 的 例子 
中 ， 的 确 存在 匹配 ) ， 此 匹配 尝试 所 在 的 “世界 *"， 包 括 在 尝试 中 创造 
的 所 有 备用 状态 ， 都 会 被 放弃 。 


如 果 环 视 中 的 子 表达 式 无 法 匹配 ， 结 果 如 何 呢 ? 因为 它 只 应 用 到 
这 个 “世界 ”中 ， 所 以 回溯 时 只 能 选择 当前 环视 结构 中 的 备用 状态 。 也 
就 是 说 ， 如 果 正 则 表达 式 发 现 ， 需 要 进一步 回溯 到 当前 的 环视 结构 的 
起 点 以 前 ， 它 就 认为 当前 的 子 表达 式 无 法 匹配 。 对 肯定 型 环视 来 说 ， 
这 就 意味 着 失败 ， 而 对 于 否定 型 环视 来 说 ， 这 意味 着 成 功 。 在 任何 一 
种 情况 下 ， 都 没有 保留 备用 状态 (如 果 有 ， 那 么 子 表 达 式 的 匹配 尝试 
就 没有 结束 ) ， 自 然 也 谈 不 上 放弃 。 

所 以 我 们 知道 ， 只 要 环视 结构 的 匹配 尝试 结束 ， 它 就 不 会 留 下 任 
何 备用 状态 。 任 何 备用 状态 和 例子 中 肯定 环视 成 功 时 的 情况 一 样 ， 都 
会 被 放弃 。 我 们 在 其 他 什么 地 方 看 到 过 放弃 状态 ? 当然 是 固化 分 组 和 
占有 优先 量词 。 

用 肯定 环视 模拟 固化 分 组 

如 果 流 派 本 身 支 持 固 化 分 组 ， 这 么 做 可 能 有 点 多 此 一 举 ， 但 如 果 
流派 不 支持 固化 分 组 ， 这 么 做 就 很 有 用 : 如 果 所 使 用 的 工具 支持 肯定 
环视 ， 同 时 可 以 在 肯定 环视 中 使 用 捕获 括号 (大 多 数 风格 都 支持 ， 但 
也 有 些 不 支持 ，Tcl 就 是 如 此 ) ， 就 能 模拟 实现 固化 分 组 和 占有 优先 量 
ile ' (2 >regex) | 可 以 用 (? = (regex) ) \1 来 模拟 。 举 例 来 
说 ， 比 较 ”(? >\w+) : A A (? = (\wt) ) \L: js 

IPHI w+, 是 匹配 优先 的 ， 它 会 匹配 尽 可 能 多 的 字符 ， 也 就 
是 整个 单词 。 因 为 它 在 环视 结构 中 ， 当 环视 结束 之 后 ， 备 用 状态 都 会 
放弃 〈 和 固化 分 组 一 样 ) 。 但 与 固化 分 组 不 一 样 的 是 ， 虽 然 此 时 确实 
捕获 了 这 个 单词 ， 但 它 不 是 全 局 匹配 的 一 部 分 (这 就 是 环视 的 意 
X) 。 这 里 的 关键 就 是 ， 后 面 的 \1, 捕获 的 就 是 环视 结构 捕获 的 单 
词 ， 而 这 当然 会 匹配 成 功 。 在 这 里 使 用 \1 并 非 多 此 一 举 ， 而 是 为 了 
把 匹配 从 这 个 单词 结束 的 位 置 进行 下 去 。 

这 个 技巧 比 真正 的 固化 分 组 要 慢 一 些 ， 因 为 需要 额外 的 时 间 来 重 
新 匹配 \1 的 文本 。 不 过 ， 因 为 环视 结构 可 以 放弃 备用 状态 ， 如 果 冒 
号 无 法 匹配 ， 它 的 失败 会 来 得 更 快 一 些 。 


多 选 结构 也 是 匹配 优先 的 吗 


Is Alternation Greedy? 

多 选 分 文 的 工作 原理 非常 重要 ， 因 为 在 不 同 的 正则 引 敬 中 它们 是 
末 然 不 同 的 。 如 果 遇 到 的 多 个 多 选 分 支 都 能 够 匹配 ， 究 竟 会 选择 哪 一 
SWE? 或 者 说 ， 如 果 不 只 一 个 多 选 分 文 能 够 匹配 ， 最 后 究竟 应 该 选择 
哪 一 个 呢 ? 如 宋 选 择 的 是 匹配 文本 最 长 的 多 选 分 文 ， 有 人 也 许 会 说 多 
选 结构 也 是 匹配 优 移 的 ， 如 末 选 择 的 是 匹配 文本 最 短 的 多 选 分 文 ， 有 
人 也 许 会 说 它 是 忽略 优先 的 ? 那么 〈 如 果 只 能 是 一 个 的 话 ) 究竟 是 哪 


Ane 


让 我 们 看 看 Perl、PHP、Java、.NET 以 及 其 他 语言 使 用 的 传统 型 
NEFA 引 警 。 遇 到 多 选 结构 时 ， 这 种 引擎 会 按照 从 左 到 右 的 顺序 检查 
达 式 中 的 多 选 分 支 。 拿 正则 表达 式 和 (SubjectlDate) : :来 说 ， 遇 到 

i'subjectlDate , 时 ， 首 先 尝试 的 是 “Subject，。 如 果 能 够 匹配 ， 就 转 而 

处 理 接 下 来 的 部 分 〈 也 就 是 后 面 的 : :| ) 。 如 果 无 法 匹配 ， 而 此 时 又 

有 其 他 多 选 分 支 (就 是 例子 中 的 'Date, ) ， 正 则 引擎 会 回溯 来 党 试 

它 。 这 个 例子 同样 说 明 ， 正 则 引擎 会 回溯 到 存在 尚未 尝试 的 多 选 分 支 

的 地 方 。 这 个 过 程 会 不 断 重复 ， 直 到 完成 全 局 匹配 ， 或 者 所 有 的 分 支 
(也 就 是 本 例 中 的 所 有 多 选 分 支 ) 都 党 试 穷 尽 为 止 。 

所 以 ， 对 于 常见 的 传统 型 NFA 引 擎 ， 用 tourltoltournament | 来 匹 
fic ‘three-tournaments: won: 时 ， 会 得 到 什么 结果 呢 ? EX il Sl threes 
tournaments:won’ 时， 在 每 个 位 置 进行 的 匹配 和 芝 试 都 会 失败 ， 而 且 每 次 
尝试 时 ， 都 会 检查 所 有 的 多 选 分 支 (FARM) 。 而 在 这 个 位 置 ， 第 
一 个 多 选 分 支 'tour | 能 够 匹配 。 因 为 这 个 多 选 结构 是 正则 表达 式 中 的 
最 后 部 分 ，『tour| 匹配 结束 也 就 意味 着 整个 表达 式 匹 配 完成 。 其 他 的 
多 选 分 文 了 加 不 会 尝试 了 。 

因此 我 们 知道 ， 多 选 结 构 既 不 是 匹配 优先 的 ， 也 不 是 忽略 优先 
的 ， 而 是 按 顺 序 排列 的 ， 至 少 对 传统 型 NFA 来 说 是 如 此 。 这 上 比 匹配 优 
移 的 多 选 结 构 更 有 用 ， 因 为 这 样 我 们 能 够 对 匹配 的 过 程 进 行 更 多 的 挖 
制 一 一 正则 表达 式 的 使 用 者 可 以 用 它 下 令 :“ 移 斌 这 个 ， 再 试 那 个 ， 基 
后 试 男 一 个 ， 直 到 试 出 结果 为 止 ”。 

不 过 ， 也 不 是 所 有 的 流派 都 支持 按 序 排列 的 多 选 结 构 。DFA 和 
POSIX NFA 确 实 有 匹配 优先 的 多 选 结 构 ， 它 们 总 是 匹配 所 有 多 选 分 文 


中 能 匹配 最 多 文本 的 那个 (也 就 是 本 例 中 的 tournament) ) 。 但 是 ， 
如 果 你 使 用 的 是 Perl、PHP、.NET、java.util.regex， 或 者 其 他 使 用 传统 
型 NFA 的 工具 ， 多 选 结构 就 是 按 序 排列 的 。 


发 据 有 序 多 选 结构 的 价值 


Taking Advantage of Ordered Alternation 

回 过 头 来 看 第 167 页 (\\d\d[1-9]? ) dx , 的 例子 。 如 果 我 们 明 
A, ‘\d\d[1-9]? , 其 实 等 于 did, 或 者 '\\d\d[1-9]，， 我 们 就 可 以 把 
整个 表达 式 重 新 写作 ” (sddsdd[1-9]) dx) o (这 并 非 必 须 的 改 
动 ， 只 是 举例 说 明 ) 。 这 个 表达 式 与 之 前 的 完全 一 样 吗 ?如 果 多 选 结 
构 是 匹配 优先 的 ， 那 么 答案 就 是 肯定 的 ， 但 如 果 多 选 结构 是 有 序 的 ， 
两 者 就 完全 不 一 样 。 

我 们 来 看 多 选 结构 有 序 的 情形 。 首 先 选择 和 测试 的 是 第 一 个 多 选 
分 支 ， 如 果 能 够 匹配 ， 控 制 权 就 转移 到 紧 接 的 \d 淡 ， 那里。 如 果 还 有 
其 他 的 数字 ，“\d 炎 | 能 够 匹配 它们 ， 也 就 是 任何 不 为 零 的 数字 ， 它 们 
是 原来 问题 的 根源 (如 果 读 者 还 记得 ， 当 时 的 问题 就 在 于 ， 这 位 数字 
我 们 只 希望 在 括号 里 匹配 ， 而 不 通过 括号 外 面 的 dx) 。 所 以 ， 如 
果 第 一 个 多 选 分 支 无 法 匹配 ， 第 二 个 多 选 分 支 同样 无 法 匹配 ， 因 为 二 
者 的 开头 是 一 样 的 。 即 使 第 一 个 多 选 结构 无 法 匹配 ， 正 则 引擎 仍然 会 
对 第 二 个 多 选 分 支 进行 徒劳 的 尝试 。 

不 过 ， 如 果 交 换 多 选 分 支 的 顺序 ， 变 成 (\Ad\d[1-9]]\\d\d) \d 
大 ，， 它 就 等 价 于 匹配 优先 的 (Add[1-9]? ) \d 淡 ，。 如 果 第 一 个 多 
选 分 支 结尾 的 [1-9] | 匹配 失败 ， 第 二 个 多 选 分 支 仍然 有 机 会 成 功 。 我 
们 使 用 的 仍然 是 有 序 排列 的 多 选 结构 ， 但 是 通过 变换 顺序 ， 实 现 了 匹 
配 优先 的 功能 。 

第 一 次 拆 分 [1-9]? | 成 两 个 多 选 分 支 时 ， 我 们 把 较 短 的 分 支 放 在 
了 前 面 ， 得 到 了 一 个 不 具备 匹配 优先 功能 的 ? ，。 在 这 个 具体 的 例子 
中 ， 这 么 做 没有 意义 ， 因 为 如 果 第 一 个 多 选 分 支 不 能 匹配 ， 第 二 个 肯 
定 也 无 法 匹配 。 我 经 常 看 到 这 样 没有 意义 的 多 选 结构 ， 对 传统 型 NFA 
来 说 ， 这 肯定 不 对 。 我 曾 看 到 有 一 本 书 以 a ( (ab) xb) | 为 例 讲 


解 传统 型 NFA 正则 表达 式 的 括号 。 这 个 例子 显然 没有 意义 ， 因 为 第 一 
个 多 选 分 支 (ab) xi 永远 也 不 会 匹配 失败 ， 所 以 后 面 的 其 他 多 选 分 
文 晕 无 意义 。 你 可 以 继续 添加 : 


lax ((ab) *|b*|.*|partridge*in*a*pear*tree| [a-z] )) 

这 个 正则 表达 式 的 意义 都 不 会 有 丝毫 的 改变 。 要 记 住 的 是 ， 如 果 
多 选 分 支 是 有 序 的 ， 而 能 够 匹配 同样 文本 的 多 选 分 支 又 不 只 一 个 ， 就 
要 小 心安 排 多 选 分 支 的 先后 顺序 。 

有 序 多 选 结构 的 陷阱 

有 序 多 选 分支 容 许 使 用 者 控制 期 望 的 匹配 ， 因 此 极为 便利 ， 但 也 
会 给 不 明 就 里 的 人 造成 麻烦 。 如 果 需 要 匹配 Jan 31 之 类 的 日 期 ， 我 们 
需要 的 就 不 是 简单 的 'Jan-[0123][0-9]，， 因 为 这 样 的 表达 式 能 够 匹 
配 “Jan.002 和 “Jan.39” 这 样 的 日 期 ， 却 无 法 匹配 "Jan.7”。 

一 种 办 法 是 把 日 期 部 分 拆 开 。 用 "0? [1-9], 匹配 可 能 以 0 开头 的 前 
九天 的 日 期 。 用 '[12][0-9], 处 理 十 号 到 二 十 九 号 ， 用 '3[01], 处 理 最 后 
两 天 。 把 上 面 这 些 连 起 来 ， 就 是 Jan (0? [1-9]I[12][0-9]l3[01]) , ° 

如 果 用 这 个 表达 式 来 匹配 Jan 31 is Dad's birthday”， 结 果 如 何 呢 ? 
我 们 希望 获得 的 当然 是 Jan 31:， 但 是 有 序 多 选 分支 只 会 捕获 "Jan 3’。 
奇怪 吗 ? 在 匹配 第 一 个 多 选 分 支 ' 09? [1-9], 时， 前 面 的 '0? ， 无 法 匹 
配 ， 但 是 这 个 多 选 分 支 仍 然 能 够 匹配 成 功 ， 因 为 “[1-9] | 能 够 匹配 3? 。 
因为 此 多 选 分 支 位 于 正则 表达 式 的 末尾 ， 所 以 匹配 到 此 完成 。 

如 果 我 们 重新 安排 多 选 结 构 的 顺序 环视 ， 把 能 够 匹配 的 数字 最 短 
的 放 到 最 后 ， 这 个 问题 就 解决 了 : Jan ([12][0-9]l3[01]I0? [1-9]) , ° 

另 一 种 办 法 是 使 用 Jan (31I[123]0I[012]? [1-9]) ,。 但 这 也 要 求 
我 们 仔细 地 安排 多 选 分 支 的 顺序 避免 问题 。 还 有 一 种 办 法 是 Jan 

(O[1-9]|[12][0-9]? |3[01]? |[4-9]) ，， 这 样 不 论 顺序 环视 如 何 都 能 获得 
正确 结果 。 比 较 和 分 析 这 3 个 不 同 的 表达 式 ， 会 有 很 多 发 现 (我 会 给 
读者 一 些 时 间 来 想 这 个 问题 ， 尽 管 下 一 页 的 补充 内 容 会 有 所 帮助 ) 。 


拆 分 日 期 的 几 种 办 法 


下 面 几 种 办 法 都 可 以 用 来 解决 第 176 页 的 日 期 匹配 问题 。 正则 表达 式 中 的 元 素 能 
匹配 日 历 中 对 应 元 素 的 部 分 ， 
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"The Longest-Leftmost" 

之 前 我 们 说 过 : 如 采 传 动 装置 在 文本 的 某 个 特定 位 置 启动 DFA 引 
擎 ， 而 在 此 位 置 又 有 一 个 或 多 个 匹配 的 可 能 ，DFA 残 会 选择 这 些 可 能 
中 最 长 的 。 因 为 在 所 有 同样 从 最 左边 开始 的 可 能 的 匹配 文本 中 它 是 最 
长 的 ， 所 以 叫 它 “ 最 左 最 长 的 (longest-leftmost) ”匹配 。 

绝对 最 长 

这 里 说 的 “最 长 ”不 限于 多 选 结 构 。 看 看 NEA 如 何 用 ' one 

(self) ? (selfsufficient) ? | 来 匹配 字符 串 oneselfsufficient ° NFA É 
先 匹配 ‘one, ， 然 后 是 匹配 优先 的 (self) ? ，， 留 下 
| (selfsufficient) ? | 来 匹配 sufficient 。 它 显然 无 法 匹配 ， 但 整个 表达 
式 并 不 会 因此 匹配 失败 ， 因 为 这 个 元 素 不 是 必须 匹配 的 。 所 以 ， 传 统 
型 NFA 返 回 oneselfsufficient, WAA HAIS (POSIX NFA 
的 情况 与 此 不 同 ， 我 们 稍 后 将 会 看 到 ) 。 

与 此 相反 ，DFA 会 返回 更 长 的 结果 ; oneselfsufficient, o 如 果 
最 开始 的 ” (self) ?| 因为 某 些 原因 无 法 匹配 ，NFA 也 会 返回 跟 DFA 
一 样 的 结果 ， 因 为 (self) ? | 无 法 匹配 ，「 (selfsufficient) ? | 就 
能 成 功 匹 配 。 传 统 型 NFA 不 会 这 样 ， 但 是 DFA 则 会 这 样 ， 因 为 会 选择 最 
长 的 可 能 匹配 。DFA 同时 记录 多 个 匹配 ， 在 任何 时 候 都 消 楚 所 有 的 匹 
配 可 能 ， 所 以 它 能 做 到 这 一 点 。 

我 选 这 个 简单 的 例子 是 因为 它 很 容易 理解 ， 但 是 我 希望 读者 能 够 
明白 ， 这 个 问题 在 现实 中 很 重要 。 举 例 来 说 ， 如 果 和 希望 匹配 连续 多 行 
文本 ， 常 见 的 情况 是 ， 一 个 逻辑 行 (logical line) 可 以 分 为 许多 现实 的 
行 ， 每 一 行 以 反 斜 线 结尾 ， 例 如 : 


SRC=array.c builtin.c eval.c field.c gawkmisc.c io.c main.c \ 
missing.c msg.c node.c re.c version.c 

读者 可 能 希望 用 Awt. x | 来 匹配 这 种 “var=value” 的 数据 ， 但 是 
正则 表达 式 无 法 识别 连续 的 行 (在 这 里 我 们 假设 点 号 无 法 匹配 换行 
符 ) 。 为 了 匹配 多 行 ， 读 者 可 能 需要 在 表达 式 最 后 添加 ” An.) 
Ky, BRI Ww. (Wn.*) 1。 显然 ， 这 意味 着 任何 后 继 的 逻辑 行 
都 能 匹配 ， 只 要 他 们 以 反 斜 线 结尾 。 这 看 起 来 没 错 ， 但 在 传统 型 NFA 
中 行 不 通 。 .类 | 到 达 行 尾 的 时 候 ， 已 经 匹配 了 反 斜 线 ， 而 表达 式 中 后 
面 的 部 分 不 会 强迫 进行 回溯 (S152) 。 但 是 ，DFA 能 够 匹配 更 长 的 多 
行文 本 ， 因 为 它 确实 是 最 长 的 。 

如 琳 能 够 使 用 忽略 优先 的 量词 ， 也 许可 以 考虑 用 它们 来 解决 问 
题 ， 例 如 Aw? Aink?) 类 |。 这 样 点 号 每 次 实际 匹配 任何 
字符 之 前 ， 都 需要 测试 转 义 的 换行 符 部 分 ， 这 样 “\ 就 能 够 匹配 换行 
符 之 前 的 反 斜 线 。 不 过 这 也 行 不 通 。 如 采 忽 略 优 匈 量词 匹配 某 些 可 选 
的 部 分 ， 必 然 是 在 全 局 匹配 必须 的 情况 下 发 生 。 但 是 在 本 例 中 ， =， 
后 面 的 所 有 部 分 都 不 是 必须 匹配 的 ， 所 以 没有 东西 会 强迫 忽略 优先 量 
词 匹 配 任 何 了 字符。 忽略 优先 的 正则 表达 式 只 能 匹配 ‘SRC=’， 这 显然 不 
征 我 们 期 望 的 结 采 。 

这 个 问题 还 有 其 他 的 解决 办 法 ， 我 们 会 在 下 一 章 继续 这 个 问题 

(186) 


POSIX 和 最 左 最 长 规则 


POSIX and the Longest-Leftmost Rule 

POSIX 标 准 规定 ， 如 果 在 字符 串 的 某 个 位 置 存 在 多 个 可 能 的 匹 
配 ， 应 当 返 回 的 是 最 长 的 匹配 。 

POSIX 标 准 文 档 中 使 用 了 “最 左边 开始 的 最 长 匹配 (longest of the 
leftmost) ”。 它 并 没有 规定 必须 使 用 DFA， 那 么 ， 如 果 和 希望 使 用 NFA 来 
实践 POSIX， 程 序 员 应 该 如 何 做 ? 如 果 你 希望 执行 POSIX NFA, ABA 
必须 找到 完整 的 Qneselfsufficient 和 所 有 的 连续 行 ， 虽然 这 个 结 
是 违反 NFA“ 天 性 ”的 。 


传统 型 NFA3 引 敬 会 在 第 一 次 找到 匹配 时 停 下 来 ， 但 是 如 果 让 它 继 
续 尝 斌 其 他 分 支 CRA) 会 怎样 呢 ? 每 次 匹配 到 表达 式 的 末尾 时 ， 它 
都 会 获得 另 一 个 可 能 的 匹配 结果 。 如 果 所 有 的 分 支 都 穷尽 了 ， 就 能 从 
中 选择 最 长 的 匹配 结果 。 这 样 ， 我 们 吏 得 到 了 一 台 POSIX NFA。 在 上 
面 的 例子 中 ，NFA 匹配 ' (self) ? ， 时 保存 了 一 个 备用 状态 : 


‘one (self)? _ (sel fsuf- ficient) 9 j 在 one selfsufficient; o 传统 
型 NFA 在 oneselfsufficient 之 后 停止 匹配 ， 

而 POSIX NFA 仍 然 会 继续 检查 余下 的 所 有 状态 ， 最终 得 到 那个 更 
长 的 结果 (其 实 是 最 长 的 ) eneselfsufficient。 


第 7 章 有 一 个 例子 ， 可 以 让 Perl 模 拟 POSIX 的 做 法 ， 返 回 最 长 的 匹 
配 字 符 (225) ° 


速度 和 效率 


Speed and Efficiency 

如 果 传 统 型 NFA 的 效率 是 我 们 应 当 关 注 的 问题 《对 提供 回溯 的 传 
统 型 NFA 来 说 ， 这 确实 是 一 个 问题 ， 那 么 POSIX NFA 的 效率 就 更 值 
得 关注 ， 因 为 它 需 要 进行 更 多 的 回溯 。POSIX NFA 需 要 尝试 正则 表达 
式 的 所 有 变 体 (译注 4) 。 第 6 章 告 诉 我 们 ， 正 则 表达 式 写 得 糟糕 的 
话 ， 匹 配 的 效率 就 会 很 低 。 

DFA 的 效率 

文本 主导 的 DFA 巧 妙 地 避免 了 回 漳 造 成 的 效率 问题 。DEFA 同 时 记录 
了 所 有 可 能 的 匹配 ， 这 样 来 提高 速度 。 它 是 如 何 做 到 这 一 切 的 呢 ? 

DFA 引擎 需要 更 多 的 时 间 和 内 存 ， 它 第 一 次 遇见 正则 表达 式 时 ， 
在 做 出 任何 尝试 之 前 会 用 比 NFA 详 细 得 多 的 〈 也 是 截然 不 同 的 ) 办 法 
来 分 析 这 个 正则 表达 式 。 开 始 党 试 匹配 的 时 候 ， 它 已 经 内 建 了 一 张 路 
线 图 (map) ， 描 述 < 遇 到 这 个 和 这 个 字符 ， 就 该 选择 这 个 和 那个 可 能 
的 匹配 ”。 字 符 串 中 的 每 个 字符 都 会 按照 这 张 路 线 图 来 匹配 。 

有 时 候 ， 构 造 这 张 路 线 图 可 能 需要 相当 的 时 间 和 内 存 ， 不 过 只 要 
建立 了 针对 特定 正则 表达 式 的 路 线 图 ， 结 果 就 可 以 应 用 到 任意 长 度 的 
文本 。 这 就 好 像 为 你 的 电动 车 充电 一 样 。 首 先 ， 你 得 把 车 停 到 车 库 里 


面 ， 插 上 电源 等 待 一 段 时 间 ， 但 只 要 发 动 了 汽车 ， 清 洁 的 能 源 就 会 源 
源 而 来 。 


NFA 理论 与 现实 


NFA (译注 5) 真正 的 数学 和 计算 学 意义 是 不 同 于 通常 说 的 “NFA 引擎 ”的 ， 在 理论 
上 ,NFA fe DFA 引擎 应 该 匹配 完全 一 样 的 文本 , 提供 完全 一 样 的 功能 , 但 是 在 实际 中 ， 
因为 人 们 需要 更 强 的 功能 ， 更 具 表 达能 力 的 正则 表达 式 ， 它 的 语意 发 生 了 变化 ， 反 向 
AE E d 


DFA 引擎 的 设计 方案 藉 排 除了 反 向 引用 ， 但 是 对 于 真正 (数学 意义 上 的 ) 的 NFA 引 学 
来 说 ， 提 供 反 向 引用 的 支持 只 需要 很 小 的 改动 ， 这 样 我 们 就 得 到 了 一 个 功能 更 强大 的 
工具 ， 但 它 绝对 是 非 正则 (nonregular) 的 【数学 意义 上 的 )， 这 是 什么 意思 呢 ? AH, 


你 不 应 该 继续 叫 它 “NFA"， 而 是 “不 正则 表达 式 (nonregular expressions)”， 因 为 这 个 
名 词 才 能 描述 (在 数学 意义 上 ) 新 的 情形 。 但 是 实际 没 人 这 么 做 ， 所 以 这 个 名 字 就 这 
样 流传 下 来 ， 虽 然 实 现 方式 都 不 再 是 (数学 意义 上 的 ) NFA, 

这 对 用 户 有 什么 意义 ?显然 没有 什么 意义 。 作 为 用 户 ， 你 不 需要 关心 它 是 正则 还 是 非 
正则 ， 而 只 需要 知道 它 能 为 你 做 什么 (也 就 是 本 章 的 内 容 )， 

对 那些 希望 了 解 更 多 的 正则 表达 式 的 理论 的 人 ， 经 典 的 计算 机 科学 教学 文本 是 ，Aho、 
Sethi, Ullman 的 Compilers—Principles, Techniques, and Tools (Addison-Wesley, 1986) 
的 第 3 章 ,， MTA “BAH, BACH, RAM, ii-i “teh”, “tH 
龙 ” 指 的 是 它 的 前 任 ，Aho fo Ullman 的 Principles of Compiler Design. 


小 结 : NEA 与 DEFA 的 比较 


Summary:NFA and DFA in Comparison 

NEFA 与 DFA 各 有 利 浆 。 

DEFA 与 NFEA: 在 预 编译 阶段 (pre-use compile) 的 区 别 

在 使 用 正则 表达 式 搜索 之 前 ， 两 种 引擎 都 会 编译 表达 式 ， 得 到 一 
套 内 化 形式 ， 适 应 各 自 的 匹配 算法 。NFA 的 编译 过 程 通常 要 快 一 些 ， 


需要 的 内 存 也 更 少 一 些 。 传 统 型 NFA 和 POSIX NFA 之 间 并 没有 实质 的 
差别 。 

DFA 与 NFA: 匹配 速度 的 差别 

对 于 “正常 ”情况 下 的 简单 文本 匹配 测试 ， 两 种 引 警 的 速度 差 不 
多 。 一 般 来 说 ，DEFA 的 速度 与 正则 表达 式 无 天 ， 而 NFA 中 两 者 直接 相 
关 。 

传统 的 NFA 在 报告 无 法 匹配 以 前 ， 必 须 尝 试 正则 表达 式 的 所 有 变 
体 。 这 就 是 为 什么 我 要 用 整 章 (第 6 章 ) 来 论述 提高 NFA 表 达 式 匹配 速 
度 的 技巧 。 我 们 将 会 看 到 ， 有 了 时候 一 个 NFA 永 远 无 法 结束 匹配 。 传 统 
型 NFA 如 果 能 找到 一 个 匹配 ， 肯 定 会 停止 匹配 。 

相反 ，POSIX NFA 必 须 尝 试 正则 表达 式 的 所 有 变 体 ， 确 保 获 得 最 
长 的 匹配 文本 ， 所 以 如 果 匹 配 失败 ， 它 所 花 的 时 间 与 传统 型 NFA 一 样 
(有 可 能 很 长 ) 。 因 此 ， 对 POSIX NFA 来 说 ， 表 达 式 的 效率 问题 更 为 
重要 。 

在 某 种 意义 上 ， 我 说 得 绝对 了 一 点 ， 因 为 优化 措施 通常 能 够 减少 
获得 匹配 结果 的 时 间 。 我 们 已 经 看 到 ， 优 化 引擎 不 会 在 字符 串 开头 之 
外 的 任何 地 方 尝试 带 '^ 锚 点 的 表达 式 ， 我 们 会 在 第 6 章 看 到 更 多 的 优 
化 措施 。 

DEFA 不 需要 做 太 多 的 优化 ， 因 为 它 的 匹配 速度 很 快 ， 不 过 最 重要 
的 是 ，DFA 在 预 编译 阶段 所 作 的 工作 提供 的 优化 效果 ， 要 好 于 大 多 数 
NEFA 引 警 复杂 的 优化 措施 。 

现代 DFA 引 擎 经 常会 党 试 在 匹配 需要 时 再 进行 预 编译 ， 减 少 所 需 
的 时 间 和 内 存 。 因 为 应 用 的 文本 各 异 ， 通 常情 况 下 大 部 分 的 预 编 译 都 
是 白费 工夫 。 因 此 ， 如 果 在 匹配 过 程 确实 需要 的 情况 下 再 进行 编译 ， 
有 时 候 能 节省 相当 的 时 间 和 内 存 (技术 术语 就 是 “延迟 求 值 (lazy 
evaluation) ”) 。 这 样 ， 正 则 表达 式 、 待 匹配 的 文本 和 匹配 速度 之 间 就 
建立 了 某 种 联系 。 

DFA 与 NFA: 匹配 结果 的 差别 

DFA (或 者 POSIX NFA) 返回 最 左边 的 最 长 的 匹配 文本 。 传 统 型 
NFA 可 能 返回 同样 的 结果 ， 当 然 也 可 能 是 别 的 文本 。 针 对 某 一 型 具体 
的 引 警 ， 同 样 的 正则 表达 式 ， 同 样 的 文本 ， 总 是 得 到 同样 的 结果 ， 在 


这 个 意义 上 来 说 ， 它 不 是 “随机 ”的 ， 但 是 其 他 NFA 引 警 可 能 返回 不 一 样 
的 结果 。 事 实 上， 我 见 过 的 所 有 传统 型 NFA 返 回 的 结果 都 是 一 样 的 ， 
但 并 没有 任何 标准 来 硬性 规定 。 

DFA 与 NFA: 能 力 的 差异 

NFA3| 苟 能 提供 一 些 DFA 不 支持 的 功能 ， 例 如 : 

e 捕 萄 由 括号 内 的 子 表达 式 匹 配 的 文本 。 相 关 的 功能 是 反 同 引用 和 
后 匹配 信息 (after-match information) ， 它 们 描述 匹配 的 文本 中 每 个 括 
号 内 的 子 表 达 式 所 匹配 文本 的 位 置 。 

e 环 视 ， 以 及 其 他 复杂 的 零 长 度 确认 〈 注 8) (5133) 。 

e 非 匹配 优先 的 量词 ， 以 及 有 序 的 多 选 结构 。DEFA 很 容易 束 能 文 持 
选择 最 短 的 匹配 文本 〈 尽 管 因 为 某 些 原因 ， 这 个 选项 似乎 从 未 向 用 户 
提供 过 ) ， 但 是 它 无 法 实现 我 们 讨论 过 的 局 部 的 忽略 优先 性 和 有 序 的 
多 选 结构 。 


e 占 有 优先 量词 (6142) 和 固化 分 组 (6139) ° 


RE DFA 的 速度 和 NFA 的 功能 ， 正 则 表达 式 的 终极 境界 


我 已 经 多 次 说 过 ,DFA 不 能 支持 捕获 振 号 和 反 向 引用 ,这 无 疑 是 对 的 ， 但 这 并 不 是 说 ， 
我 们 不 能 组 会 不 同 的 技术 ， 以 达到 正则 表达 式 的 终极 境界 。180 页 的 补充 内 容 描述 了 
NFA 为 了 追求 更 强大 的 功能 ,如何 脱离 了 纯 理 论 的 道路 和 限制 , DFA 的 情况 也 是 如 此 ， 
党 自身 结构 的 限制 ，DFA 进行 这 种 突破 更 加 困难 ， 但 并 非 不 可 能 ， 


GNU grep 采取 了 一 种 简单 但 有 效 的 策略 。 它 尽 可 能 多 地 使 用 DEA,， 在 需要 反 向 引用 的 
时 候 ， 才 切换 到 NFA，GNU awk 的 办 法 也 差不多 一 一 在 进行 “是 否 匹配 ”的 检查 时 ， 


w AM GNU grep 的 DFA 引 人 学， 如果 需 要 知道 具体 的 匹配 文本 的 内 容 ， 就 采用 不 同 的 
引擎 ， 这 里 的 “不 同 的 引擎 ” 束 是 NFA， 利 用 自己 的 gensub Bh, GNU awk HED IR 
方便 地 提供 捕获 括号 ， 

Tel 的 正则 引擎 由 Henry Spencer (你 或 许 记得 ， 这 个 人 在 正则 表达 式 的 早期 发 展 和 流 
行 中 扮演 了 重要 的 角色 ) 开发 ， 它 也 是 混合 型 的 ，Tel 引 学 有 时 候 像 NFA 一 一 它 支 持 
环视 、 捕 获 括号 、 反 向 引用 和 息 苔 优先 量词 ， 但 是 ， 它 也 确实 能 提供 POSIX 的 最 左 最 
长 匹配 ( 字 177)， 但 没有 我 们 将 在 第 06 章 看 到 的 NFA HAM, LEMKE, 


DFA 与 NFA: 实现 难度 的 差异 
尽管 存在 限制 ， 但 简单 的 DFA 和 NFA3 引 | 警 都 很 容易 理解 和 实现 。 对 
效率 (包括 时 间 和 空间 效率 ) 和 增强 性 能 的 追求 ， 令 实现 越 来 越 复 


a 
杂 


用 代码 长 度 来 衡量 的 话 ， 支 持 NFA 正则 表达 式 的 ed Version 7 
(1979 年 1 月 发 布 ) 只 有 不 到 350 行 的 C 代 码 (所 以 ， 整 个 grep 只 有 区 区 
478 行 代码 ) ° Henry Spencer1986 年 免费 提供 的 Version 8 正则 程序 差 不 
多 有 1 900 行 C 代 码 ，1992 年 Tom Lord 的 POSIX NFA package rx (被 GNU 
sed 和 其 他 工具 采用 ) 长 达 9 700 行 。 
H T 1% & DEA FAINFAMI ÈS, GNU egrep Version 2.4.2 使 用 了 两 个 
功能 完整 的 引 警 (差不多 8 900 行 代码 ) ，Tel 的 DFA/NFA 混 合 引 擎 (请 
看 上 一 页 的 补充 内 容 ) 更 是 长 达 9 500 行 。 


FEE SC EAR fal 2, (ESF AN EE SCF Be AB oo RA 
要 用 Pascal AY) IE Vl) Ze ih SU He Ach BB SE HE SCR o MEE AY Da Ee ik A E 
Pascal 了， 但 是 写 个 简单 的 NFA 引 警 并 不 需要 太 多 工夫 。 它 并 不 追求 花 
哨 ， 也 不 追求 速度 ， 但 是 提供 了 相对 全 面 的 功能 ， 非 常 实用 。 


总 结 


JOTA 


Summary 

如 条 你 希望 一 志 束 能 读 懂 本 章 的 所 有 内 容 ， 大 概 得 做 点 准备 。 至 
少 ， 这 些 东西 不 那么 容易 理解 。 我 伦 了 些 时 间 才 理解 它 ， 化 了 更 长 的 
时 间 才 真正 和 弄 懂 。 我 硕 望 这 草 出 要 的 讲解 能 够 降低 读者 理解 的 难度 。 
我 党 试 过 简单 地 解释 ， 同 时 不 要 调 入 太 简 单 的 陷阱 〈 不 入 的 是 ， 太 过 
直 日 的 解释 总 是 妨碍 了 真正 的 理解 。 本 章 有 许多 这 样 的 陷阱 ， 所 以 
我 在 其 中 安排 了 许多 对 其 他 页 的 引用 ， 在 下 面 的 摘要 中 ， 读 者 可 以 很 
快 地 找到 其 他 的 内 容 。 

实现 正则 表达 式 匹 配 引 擎 有 两 种 常见 的 技术 ， 一 种 是 “表达 式 主 导 
的 NFA” (C153) ， 另 一 种 是 “文本 主导 的 DFA”(4E155) 。 它 们 的 全 
称 见 第 156 页 。 

这 两 种 技术 ， 结 合 POSIX 标 准 ， 可 以 按照 实用 标准 划分 3 种 正则 引 


擎 

e 传 统 型 NFA (汽油 驱动 ， 功 能 强大 ) 。 

ePOSIX NFA (汽油 驱动 ， 符 合 标准 ) 。 

eDFA (不 一 定 符合 POSIX) 《电力 张 动 ， 运 转 稳定 ) 。 

为 了 对 手头 的 工具 有 个 大 致 的 了 解 ， 你 需要 知道 它 采 用 的 是 什么 
引 苟 ， 以 对 正则 表达 式 做 相应 的 调 校 。 最 常见 的 引 敬 就 是 传统 型 
NFA， 其 次 是 DFA。 表 4-1 (145) 列 出 了 若干 常用 工具 及 它们 使 用 
的 引擎 类 型 , “测试 引擎 的 类 型 ”〈E146) 给 出 了 测试 引擎 类 型 的 方 
法 。 

对 于 任何 引擎 来 说 ， 都 有 一 条 通用 的 规则 : 开始 位 置 靠 先 的 匹配 
文本 优先 于 开始 位 置 靠 后 的 匹配 文本 。 因 为 “传动 机 构 ” 会 从 前 往 后 在 
文本 的 各 个 位 置 展 开 党 试 (148) ° 

对 于 从 某 个 位 置 开 始 的 匹配 : 

文本 主导 的 DFA 引 擎 ; 

寻找 可 能 的 最 长 的 匹配 文本 。 不 再 介绍 (177) 。 稳 定 、 速 度 快 

(179) ， 讲 解 起 来 很 麻烦 。 


表达 式 主 导 的 NFA 引 擎 : 

匹配 过 程 中 可 能 需要 “反复 党 试 (work through) ”。 NFA 匹 配 的 灵 
魂 是 回溯 (157, 162) 。 控 制 匹 配 过 程 的 元 字符 : 标准 量词 (BS 
等 等 ) 是 匹配 优先 的 (151) ， 其 他 量词 是 忽略 优先 或 者 占有 优先 的 
(169) 。 在 传统 型 NFA 中 ， 多 选 结构 是 有 序 排列 的 (174) ， 在 
POSIX NFA 中 是 匹配 优先 的 。 

POSIX NFA 必须 找到 最 长 的 匹配 文本 。 但 是 ， 匹 配 并 不 难 理解 ， 
只 须 考 虑 效率 (第 6 章 的 问题 ) 。 

传统 型 NFA 控制 能 力 最 强 的 正则 引擎 ， 因 此 使 用 者 可 以 使 用 该 引 
擎 的 表达 式 主 导 性 质 来 精确 控制 匹配 过 程 。 

理解 本 章 的 概念 和 练习 是 书写 正确 而 高 效 的 正则 表达 式 的 基础 ， 
这 也 是 接 下 来 两 章 的 主题 。 


第 5 章 正则 表达 式 实用 技巧 


Practical Regex Techniques 

现在 我 们 已 经 掌握 了 编写 正则 表达 式 所 需 的 基本 知识 ， 我 布 望 在 
更 复杂 的 环境 中 应 用 这 些 知识 来 处 理 更 复杂 的 问题 。 每 个 正则 表达 式 
都 必须 在 下 面 两 个 方面 求 得 平衡 : 准确 匹配 期 望 匹配 的 内 容 ， 忽 略 不 
期 望 匹配 的 字符 。 我 们 已 经 看 过 许多 例子 都 说 明 ， 如 采 应 用 得 当 ， 匹 
配 优 移 非 常 有 用 ， 但 如 有 果 不 够 小 心 ， 也 可 能 带 来 麻烦 ， 在 本 章 我 们 还 
将 看 到 许多 例子 。 

NFA 引擎 还 需要 平衡 另外 一 个 因素 : 效率 ， 这 也 征 下 一 章 的 主 
题 。 设 计 粳 糕 的 正则 表达 式 一 一 即使 可 以 认为 没 犯错 误 一 一 也 足以 让 
引擎 瘫痪 。 

本 章 出 现 的 主要 是 各 种 实例 ， 我 会 市 领 读 者 循 着 我 的 思路 去 解决 
各 种 问题 。 某 些 例子 或 许 对 读者 并 没有 现实 价值 ， 但 我 仍然 推荐 读者 
阅读 这 些 实例 。 

例如 ， 即 使 你 的 工作 不 涉及 HTML， 我 仍 推荐 你 从 处 理 HTML 的 
实例 中 吸取 知识 。 原 因 在 于 ， 编 写 巧 妙 的 正则 表达 式 不 仅仅 古 一 种 手 
Z (skill) 而 且 还 是 一 种 艺术 (art) 。 它 的 教授 和 学 习 ， 不 是 依 
靠 罗列 规则 ， 而 是 依靠 经 验 ， 所 以 ， 我 用 这 些 例子 告诉 读者 ， 目 己 在 
过 去 的 着 干 年 从 经 验 中 获得 的 深刻 启示 。 

当然 ， 读 者 仍然 需要 目 己 掌握 这 些 知 识 ， 但 是 研究 本 章 的 例子 是 
个 好 的 起 点 。 


正则 表达 式 的 平衡 法 则 


Regex Balancing Act 

好 的 正则 表达 式 必须 在 这 些 方面 求 得 平衡 : 

e 只 匹配 期 望 的 文本 ， 排 除 不 期 望 的 文本 。 

e 必 须 易于 控制 和 理解 。 

e 如 有 果 使 用 NFA 引 警 ， 必 须 保 证 效率 〈 如 果 能 够 匹配 ， 必 须 很 快 地 
返回 匹配 结果 ， 如 果 不 能 匹配 ， 应 该 在 尽 可 能 短 的 时 间 内 报告 匹配 失 
W) 。 

这 些 方面 常 冲 是 与 具体 文本 相关 的 。 如 采 我 只 使 用 命令 行 ， 只 需 
要 快速 地 grep 某 些 东 西 ， 可 能 不 会 过 分 天 心 匹 配 的 准确 性 ， 通 常 也 不 
会 化 太 多 精力 来 调 校 。 我 不 在 乎 多 论点 时 间 来 手工 排查 ， 因 为 我 能 够 
迅速 地 在 输出 中 找到 自己 需要 的 内 容 。 但 是 ， 如 果 处 理 重要 的 程序 ， 
束 需 要 花费 时 间 精 力 来 保证 正确 性 ， 如果 需要 ， 正 则 表达 式 也 可 能 很 
复杂 。 这 些 因 素 都 需要 权衡。 

即使 使 用 同样 的 程序 ， 歼 率 也 是 与 具体 文本 相关 的 。 如 采 是 
NFA， 用 ^ 人 (display|geometry|cemap]...|quick24|random|raw) $; 之 类 
长 长 的 正则 表达 式 来 检验 命令 行 参 数 的 效率 就 很 低 ， 因 为 多 碗 分支 过 
多 ， 但 如 果 它 只 用 于 检验 命令 行 参数 (可 能 只 是 在 程序 开始 的 时 候 运 
行 若干 次 ) ， 即 使 所 需 时 间 比 正常 的 长 100 倍 也 不 要 紧 ， 因 为 这 时 候 效 
率 并 不 是 问题 。 但 是 ， 如 采 要 逐 行 检查 很 大 的 文件 ， 低 效率 的 程序 运 
行 起 来 会 让 你 痛 可 不堪。 


者 干 简单 的 例子 


A Few Short Examples 
匹配 连续 行 〈 续 前 ) 


Continuing with Continuation Lines 
继续 前 一 章 中 匹配 连续 行 的 例子 (178) ， 我 们 发 现 (在 传统 型 
NFA 中 使 用 入 w+=. 火 (Wn. 淡 ) x) 并 不 能 匹配 下 面 的 两 行文 本 : 


SRC=array.c builtin.c eval.c field.c gawkmisc.c io.c main.c\ 
missing.c msg.c node.c re.c version.c 

问题 在 于 ， 第 一 个 .类 ,一 直 匹 配 到 反 斜 线 之 后 ， 这 样 
(\\\n.*) "就 不 能 按照 预期 匹配 反 斜 线 了 。 所 以 ， 本 章 出 现 的 第 一 条 
经 验 就 是 ， 如果 不 需要 点 号 匹配 反 和 斜 线 ， 就 应 该 在 正则 表达 式 中 做 这 
样 的 规定 。 我 们 可 以 把 每 个 点 号 替换 成 [AnW]，( 请 注意 ，n 包 含 在 排 
除 性 字符 组 中 。 你 应 该 记得 ， 原 来 的 正则 表达 陈 的 假设 之 一 吏 是 ， 点 
号 不 会 匹配 换行 符 ， 我 们 也 不 布 望 它 的 奉 代 品 能 够 匹配 换行 符 宇 119 
页 ) 


于 是 ， 我 们 得 到 : 
'A\wt=[*\n\\J* (\\\n[4\n\\] *) xi 
a | eee 


它 确 实 能 够 匹配 连续 行 ， 但 因此 也 产生 了 一 个 新 的 问题 : 这 样 反 
和 斜 线束 不 能 出 现在 一 行 的 非 结尾 位 置 。 如 果 需 要 匹配 的 文本 中 包含 其 
他 的 反 斜 线 ， 这 个 正则 表达 式 束 会 出 问题 。 现 在 我 们 假设 它 会 包含 ， 
所 以 需要 继续 改进 正则 表达 式 。 

迄今 为 止 ， 我 们 的 思路 都 是 ,“ 匹 配 一 行 ， 如 果 还 有 连续 行 ， 丈 继 
续 匹 配 ”。 现 在 换 男 一 种 思路 ， 这 种 思路 我 觉得 通常 都 会 奏效 : 集中 关 
注 在 特定 时 刻 真 正 容 许 匹 配 的 字符 。 在 匹配 一 行文 本 时 ， 我 们 期 望 匹 
配 的 要 么 是 普通 ( 除 反 和 斜 线 和 换行 符 之 外 ) 字符 ， 要 么 是 反 斜 线 与 其 


他 任何 字符 的 结合 体 。 在 点 号 通 配 模 式 中 ，'\. 能 匹配 反 斜 线 加 换行 
符 的 结合 体 。 

所 以 ， 正 则 表达 式 就 变 成 了 w= ([AnNlN.) +, AS HM 
模式 下 。 因 为 开头 是 ^，， 如 果 需 要 ， 可 能 得 使 用 增强 的 文本 行 锚 点 
匹配 模式 ( 112) 

但 是 ， 这 个 答案 仍然 不 够 完美 一 我们 会 在 下 一 章 讲解 效率 问题 
时 再 次 看 到 它 (270) 


匹配 IP 地 址 


Matching an IP Address 

来 看 个 复杂 点 的 例子 ， 匹 配 一 个 IP (Internet Protocol， 因 特 网 协 
议 ) 地 址 : 用 点 号 分 开 的 四 个 数 ， 例 如 1.2.3.4。 通 常情 况 下 ， 每 个 数 都 
有 三 位 ， 例 如 001.002.003.004。 你 可 能 会 想到 用 ' [0-9] * \.[0-9] * \.[0-9] 
类 \[0-9] 兴 ， 从 文本 中 提取 一 个 地 址 ， 但 是 这 个 表达 式 显然 不 够 精 


达 式 甚至 不 需要 匹配 任何 数字 一 一 它 只 需要 三 个 点 号 (当然 也 可 能 包 
括 其 间 的 数字 ) 

为 解决 这 个 问题 ， 我 们 首先 把 星 号 改 成 加 号 ， 因 为 我 们 知道 ， 
一 段 必 须 有 至 少 一 位 数字 。 为 确保 整个 字符 串 的 内 容 就 是 一 个 卫 地 
址 ， 我 们 可 以 在 首尾 加 上 A$, ， 于 是 我 们 得 到 : 

「A[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+$ | 

WRA Na, 替换 '[0-9]， 就 得 到 dH AdHAdHAd+$, ， 这 样 可 
能 更 好 看 一 些 ( 注 1) ， 但 是 ， 这 个 表达 式 仍 然 会 捕获 一 些 并 非 耳 地 址 
的 数据 ， 例 如 ‘1234.5678.9101112.131415”(IP 地 址 的 每 个 字段 都 在 0- 
255 以 内 ) 。 那 么 ， 你 可 以 强行 规定 每 个 字段 必须 包含 三 位 数字 ， 就 是 
i'Add\d\d\d\dw\d\d\dW\d\d\d$ | ， 但 这 样 未 免 太 不 灵活 (too specific) 
了 。 即 使 某 个 字段 只 有 一 位 或 者 两 位 数字 (例如 1.234.5.67) ， 也 应 该 
匹配 。 如 果 流 派 支 持 区 间 量 词 {min，max}， 就 可 以 这 么 写 Ad{1， 
31M\d{1，3}Wd{1，3}\Wd{1，3}$，。 如 果 不 支持 ， 则 可 以 用 dd? 


\d? | 或 者 \d Add? ) ? ，。 这 两 种 方式 略 有 不 同 ， 但 都 能 匹配 一 到 
三 个 数字 。 

现在 ， 正 则 表达 式 中 的 匹配 精度 可 能 已 经 满足 需求 了 。 如 果 要 更 
精确 ， 束 必须 考虑 到 ， TN\d{1，3}| 能 够 匹配 999， 而 它 超过 了 255， 所 
以 它 不 是 一 个 合法 的 IP 地 址 。 

我 们 有 好 几 种 办 法 来 匹配 0O 和 255 之 间 的 数字 。 最 筑 的 办 法 就 是 
i0|1|213|...253|254|255，。 不 过 这 又 不 能 处 理 以 0 开头 的 数字 ， 所 以 必须 
写成 0I00l000l1l01l001..…， ， 这 样 一 来 ， 正 则 表达 式 就 长 得 过 分 了 。 对 
于 DFA 引 警 来 说 ， 问 题 还 只 是 它 太 长 太 繁 杂 一 一 但 匹配 的 速度 与 其 他 
等 价 正则 表达 式 是 一 样 的。 但 对 于 NFA 引 警 ， 太 多 的 多 选 分 支 简直 就 
是 效率 杀手 。 

实际 的 解决 办 法 是 ， 关 注 字 段 中 什么 位 置 可 以 出 现 哪 些 数字 。 如 
果 一 个 字段 只 包含 一 个 或 者 两 个 数字 ， 就 无 需 担心 这 个 字段 的 值 是 否 
合法 ， 所 以 haidd) 就 能 应 付 。 也 不 比 担心 那些 以 0 或 者 1 开头 的 三 位 
数 ， 因 为 000-199 都 是 合法 的 耳 地 址 。 所 以 我 们 加 上 odd, 2) 
‘\d\d\d|[O1Nd\d, 。 你 可 能 觉得 这 有 点 像 第 1 章 里 匹配 时 间 的 例子 〈E 
28) ， 和 前 一 章 中 匹配 日 期 的 例子 (177) 

继续 看 这 个 正则 表达 式 ， 以 2 开头 的 三 位 数字 ， 如 果 小 于 255 就 是 
合法 的 ， 所 以 第 二 位 数字 小 于 5 就 代表 整个 数 也 是 合法 的 。 如 果 第 二 位 
数字 是 5， 第 三 位 数字 就 必须 小 于 6。 这 可 以 表示 为 “2[0-4]\d|l25[0- 
5]; ° 

现在 这 个 正则 表达 式 有 点 看 不 懂 了 ， 但 分 析 之 后 还 是 能 够 理解 其 
中 包含 的 思路 。 结 果 就 是 M\d|\d\d|[01\d\d|2[0-4]\d|25[0-5], ° 其实 我 们 
可 以 合并 前 面 三 个 多 选 分 支 ， 得 到 [01]?\dNxd?12[0-4]N\dl25[0-5]， 
。 在 NFEA 中 ， 这 样 做 的 效率 更 高 ， 因 为 任何 多 选 分 文 匹 配 失败 都 会 导 
致 回溯 。 请 注意 ， 第 一 个 多 选 分 支 中 用 的 是 dd? | ， 而 不 是 \d? 
\d, ， 这 样 ， 如 果 根 本 不 存在 数字 ，NFA 会 更 快 地 报告 匹配 失败 。 我 把 
这 个 问题 的 分 析 留 给 读者 一 一 通过 一 个 简单 的 验证 就 能 发 现 二 者 的 区 
别 。 我 们 还 可 以 做 些 修改 进一步 提高 这 个 表达 式 的 效率 ， 不 过 这 要 和 留 
待 下 一 章 讨 论 了 。 


现在 这 个 表达 式 能 够 匹配 0 到 255 之 间 的 数 ， 我 们 用 括号 把 它 包 起 
来 ， 用 来 取代 之 前 表达 式 中 的 \d{1，3}，， 就 得 到 : 

[ —A([01]?\d\d?|2[0-4]\d|25[0-5])\.([01]?\d\d?|2[0-4]\d|25[0-5])\.([01]? 
\d\d?|2[0-4]\d|25[0-5])\.([01]?\d\d?|2[0-4]\d|25[0-5])$, 

这 可 真 叫 复杂 ! 需要 这 么 麻烦 吗 ? 这 得 根据 具体 需求 来 决定 。 这 
个 表达 式 只 会 匹配 合法 的 IP 地 址 ， 但 是 它 也 会 匹配 一 些 语意 不 正确 的 IP 
地 址 ， 例 如 0.0.0.0 (所 有 字段 都 为 零 的 IP 地 址 是 非法 的 ) 。 使 用 环视 功 
能 (133) 可 以 在 ^| 后 添加 (? ! OHOH.OH.0+$) ，， 但 是 某 些 
时 候 ， 处 理 各 种 极端 情形 会 降低 成 本 /收益 的 比例 。 某 些 情况 下 ， 更 合 
适 的 做 法 就 是 不 依赖 正则 表达 式 完成 全 部 工作 。 例 如 ， 你 可 以 只 使 用 
MA\d{1, 3}\.\d{1, 3}\\d{1, 3}\\d{1, 3}$，， 用 括号 把 每 个 字段 括 起 
来 ， 把 数字 变 成 程序 中 的 $1、$2、$3、$4， 这 样 就 可 以 用 其 他 程序 来 
验证 了 。 

确定 应 用 场合 (context) 

这 个 正则 表达 式 必须 借助 锚 点 '^， A'S, 才能 正常 工作 ， 认 识 到 
这 一 点 很 重要 。 否 则 ， 它 就 可 能 匹配 iP=72123.3.21.993， 如 果 使 用 
传统 型 NFA， 则 可 能 匹配 ip-123.3.21.223 。 


在 第 二 个 例子 中 ， 这 个 表达 式 甚 至 连 最 后 的 223 都 无 法 完整 匹 
配 。 但 是 ， 问 题 并 不 在 于 表达 式 本 身 ， 因 为 没有 东西 〈 例 如 分 隔 符 ， 
或 者 末尾 的 销 点 ) 强迫 它 匹配 223。 最 后 那个 分 组 的 第 一 个 多 选 分 支 
[01]? \d\d? ，， 匹 配 了 前 面 两 位 数字 ， 如 果 末尾 没有 '$，， 匹 配 到 此 
就 结束 了 。 在 前 一 章 日 期 匹配 的 例子 中 ， 我 们 可 以 安排 多 选 分 支 的 次 
序 来 达到 期 望 的 目的 。 现 在 我 们 也 把 能 把 匹配 三 位 数字 的 多 选 分 支 放 
在 最 前 面 ， 这 样 在 匹配 两 位 数 的 多 选 分 文 获得 尝试 机 会 之 前 ， 任 何 三 
位 数 都 能 完全 匹配 (DFA 和 POSIX NFA 当 然 不 需要 这 样 安排 ， 因 为 它 
们 总 是 返回 最 长 的 匹配 文本 ) 。 

无 论 是 否 重新 排序 ， 第 一 个 错误 仍然 不 可 避免 。“ 啊 哈 ! ”， 你 可 
能 会 想 , “我 可 以 用 单词 分 界 符 锚 点 来 解决 这 个 问题 。” 不 幸 的 是 ， 这 
也 不 能 奏效 ， 因 为 这 样 的 正则 表达 式 仍然 能 够 匹配 二 -2.3.4.3.6。 为 
了 避免 匹配 这 样 内 骸 的 文本 ， 我 们 必须 确保 匹配 文本 两 侧 至 少 没有 数 


字 或 者 点 号 。 如 果 使 用 环视 ， 可 以 在 原来 表达 式 的 首尾 添加 (? <! 
Nw ... (2? ! [Ww.]) 来 保证 匹配 文本 之 前 〈 以 及 之 后 ) 不 出 现 
Nw] 能 匹配 的 字符 。 如 果 不 支 持 环 视 ， 在 首尾 添加 (A) ... 
CIS) | 也 能 够 应 付 某 些 情况 。 


处 理 文件 名 


Working with Filenames 

处 理 文 件 名 和 路 径 ， 例 如 Unix 下 的 /usr/local/bin/Perl 或 者 
Windows 下 的 \Program Files\Yahoo ! \Messenger， 很 适合 用 来 讲解 正则 
表达 式 的 应 用 。 因 为 “动手 (using) ” 比 “ 观 靡 (reading) ”更 有 意思 ， 

会 同时 用 Perl、PHP (preg 程 序 ) 、Java 和 VB.NET 来 讲解 。 如 果 你 对 

其 中 的 某 些 语言 不 感 兴趣 ， 不 妨 完 全 跳 过 那些 代码 一 一 其 中 到 含 的 思 
想 才 是 最 重要 的 。 

去 掉 文件 名 开头 的 路 径 

第 一 个 例子 是 去 掉 文 件 名 开始 的 路 径 ， 例 如 把 /usr/local/bin/gcc 变 
成 gcc。 从 本 质 层 面 来 考虑 问题 是 成 功 的 一 半 。 在 本 例 中 ， 我 们 和 希望 去 
掉 在 最 后 的 斜 线 〈 含 ) 之 前 (在 Windows 中 是 反 斜 线 ) 的 任何 字符 。 如 
果 没 有 斜 线 最 好 ， 因 为 什么 也 不 用 干 。 我 兽 说 过 ，“ «| AAR 
用 ， 但 是 此 处 我 们 需要 匹配 优先 的 特性 。 1a 中 的 .类 |， 可 以 匹配 
一 整 行 ， 然 后 回 退 CEs) 到 最 后 的 斜 线 ， 来 完成 匹配 。 

下 面 是 四 种 语言 的 代码 ， 去 掉 变 量 f 中 的 文件 名 中 开头 的 路 径 。 对 
于 Unix 的 文件 名 : 


语 言 代码 

Perl $f =~ s{*.*/}{}; 

PHP $f = preg_replace('{*.*/)', T Sf)? 
java.util.regex f = f.replaceFirst("^.*/",""); 
VB.NET f = Regex.Replace(f, "*.*/",""); 


正则 表达 式 〈 或 者 说 用 来 表示 正则 表达 式 的 字符 串 ) 以 下 画 线 标 
注 ， 正 则 表达 式 相 关 的 组 件 则 由 粗 体 标注 。 


“BTA eh Windows SC fF YT RAS, Windows? Aa batt 2 he RB 
而 不 是 斜 线 ， 所 以 要 用 正则 表达 式 AKN 。 在 正则 表达 式 中 ， 我 们 需 
要 在 反 斜 线 前 再 加 一 个 反 和 斜 线 ， 才 能 表示 转 义 的 反 斜 线 ， 不 过 ， 在 中 
间 两 段 程序 中 添加 的 这 个 反 斜 线 本 二 也 需要 转 义 : 


语 言 代码 
Perl Sf =~ s/*.*\\//; 

V 
PHP $f = preg replace('/*.*\\\/', '', $£); 
j ava.util. regex f replaceFirst ( wa e\\\\" ; wm). 
VB.NET f = Regex . Replace (f , WA WA \ n , un ) . 


aS / 


从 中 很 容易 看 出 各 种 语言 的 差异 ， 尤 其 是 Java 中 那 4 个 反 斜 线 (OS 
101) 。 

有 一 点 请 务必 记 住 : 别 筷 了 时 香 想 想 匹 配 失 败 的 情形 。 在 本 例 
中 ， 匹 配 失 败 意 味 着 字符 串 中 没有 和 斜 线 ， 所 以 不 会 奉 换 ， 字 符 串 也 不 
会 变化 ， 而 这 正 是 我 们 需要 的 。 

为 了 保证 效率 ， 我 们 需要 记 住 NFA 引 警 的 工作 原理 。 设 想 下 面 这 
种 情况 ;我们 忘记 在 正则 表达 式 的 开头 添加 A, 符号 (这 个 符号 很 容 

eit) ， 用 来 匹配 一 个 恰好 没有 和 斜 线 的 字符 串 。 同 样 ， 正 则 引擎 会 
在 字符 串 的 起 始 位 置 开 始 搜索 。 .类 ， 抵达 字符 串 的 末尾 ， 但 必须 不 
断 回 退 ， 以 找到 斜 线 或 者 反 和 斜 线 。 直 到 最 后 它 交 还 了 匹配 的 所 有 字 
符 ， 仍 然 无 法 匹配 。 所 以 ， 正 则 引擎 知道 ， 在 字符 串 的 起 始 位 置 不 存 
在 匹配 ， 但 这 远 远 没有 结 

接 下 来 传动 装置 开始 工作 ， 从 在 目标 字符 串 的 第 2 个 字符 开始 ， 
依次 尝试 匹配 整个 正则 表达 式 。 事 实 上 ， 它 需要 在 字符 串 的 每 个 位 置 
(从 理论 上 说 ) 进行 扫 搬 - 回 滴 。 文 件 名 通常 很 短 ， 因 此 这 不 是 一 个 问 
题 ， 但 原理 确实 如 此 。 如 果 字 符 串 很 长 ， 束 可 能 存在 大 量 的 回溯 ( 当 
然 ，DFA 不 存在 这 个 问题 。 

在 实践 中 ， 经 过 合理 优化 的 传动 装置 能 够 认识 到 ， 对 几乎 所 有 以 
.类 | 开头 的 正则 表达 式 来 说 ， 如 果 在 某 个 字符 串 的 起 始 位 置 不 能 
配 ， 世 就 不 能 在 其 他 任何 位 置 匹 配 ， 所 以 它 只 会 在 字符 串 的 起 始 位 置 
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例子 中 我 们 正 是 这 样 做 的 。 
从 路 径 中 获取 文件 名 
另 一 种 办 法 是 忽略 路 径 ， 简 单 地 匹配 最 后 的 文件 名 部 分 。 最 终 的 
文件 名 就 是 从 最 后 一 个 斜 线 开 始 的 所 有 内 容 : VS) 。 这 一 次 ， 锚 
点 不 仅仅 是 一 种 优化 措施 ， 我 们 确实 需要 在 结尾 设置 一 个 镭 点 。 现 在 
我 们 可 以 这 样 做 ， 以 Pen 来 说 明 : 


SWholePath =~ m{([*/]*)$}; # 利用 正则 表达 式 检 测 SwholePath 
$Filename = $1; # 记录 匹配 内 容 


你 也 许 注 意 到 了 ， 这 里 并 没有 检查 这 个 正则 表达 式 能 否 匹配 ， 
为 它 总 是 能 匹配 。 这 个 表达 式 的 唯一 要 求 束 是 ， 字 人 符 串 有 $ 能 够 匹配 的 
结束 位 置 ， 而 即使 是 空 字符 串 也 有 一 个 结束 位 置 。 因 此 ， 我 用 $1 来 引 
用 括号 内 的 表达 式 匹 配 的 文本 ， 因 为 它 必 定 包 括 某 些 字符 (如 果 文 件 
名 以 斜 线 结尾 ， 结 果 就 是 空 字符 ) 。 

这 里 还 需要 考虑 到 效率 : 在 NFA 中 ， MAS) 的 效率 很 低 。 仔 细 
想 想 NFA 引 擎 的 匹配 过 程 ， 你 会 明日 它 包 插 了 太 多 的 回溯 。 即 使 是 短 
HAY “/usr/local/bin/per ， 在 获得 匹配 结果 之 前 ， 也 要 进行 四 十 多 次 回 
溯 。 考 虑 从 …Local… 开 始 的 党 试 。 | [M]* | 一 直 匹 配 到 第 二 个 1， 之 
后 匹配 失败 ， 然 后 对 1、a、c、o、1 的 存储 状态 依次 尝试 $ (都 无 法 
匹配 ) 。 如 果 这 还 不 够 ， 又 会 从 …1.2cal/… 开 始 重 复 这 个 过 程 ， 接 着 
从 …1o,cal/… 开 始 ， 不 断 重 复 。 


这 个 例子 不 应 该 消耗 我 们 太 多 的 精力 ， 因 为 文件 名 一 般 都 很 短 
(40 次 回溯 几乎 可 以 忽略 不 计 一 一 4 000 万 次 回溯 才 真正 要 紧 ) 。 再 一 
次 ， 重 要 的 生理 解 问题 本 身 ， 这 样 才 能 选择 合适 的 通用 规则 来 解决 具 
体 的 问题 。 

需要 指出 的 是 ， 纵 然 本 书 是 关于 正则 表达 式 的 ， 但 正则 表达 式 也 
不 总 是 最 优 解 。 例 如 ， 大 多 数 程序 设计 语言 都 提供 了 处 理 文件 名 的 非 
正则 表达 式 函 数 。 不 过 为 了 讲解 正则 表达 式 ， 我 仍 会 继续 下 去 。 

所 在 路 径 和 文件 名 


下 一 步 是 把 完整 的 路 径 分 为 所 在 路 径 和 文件 名 两 部 分 。 有 许多 办 
法 做 到 这 一 点 ， 这 取决 于 我 们 的 要 求 。 开 始 ， 你 可 能 想 要 用 ^ x) / 
CK) $ 的 $1 和 $2 来 提取 这 两 者 。 看 起 来 这 个 正则 表达 式 非 常 直 观 ， 
但 知道 了 匹配 优先 量词 的 工作 原理 之 后 ， 我 们 知道 第 一 个 “ .类 | 会 首先 
捕获 所 有 的 文本 ， 而 不 给 /| 和 $2 留 下 任何 字符 。 第 一 个 .类 | 能 交还 
字符 的 唯一 原因 ， 就 是 在 尝试 匹配 Cx) $ | 时 进行 的 回溯 。 这 会 
把 “交还 的 ”部 分 留 给 后 面 的 . 夫 ， 。 因 此 ，$1 就 是 文件 所 在 的 路 径 ， 
S2 EFIA ° 
需要 注意 的 是 ， 我 们 依靠 开头 的 ”(〈. 夫 ) / 来 确保 第 二 个 (. 
x) | 不 会 匹配 任何 斜 线 。 理 解 匹 配 优先 之 后 ， 我 们 知道 这 没 问 题 。 如 
果 要 做 的 更 精确 ， 可 以 使 用 [和 MM] 类 | 来 捕捉 文件 名 。 于 是 我 们 得 到 ^ 
Cx) / (V>) $) 。 这 个 表达 式 准 确 地 表达 了 我 们 的 意图 ， 一 眼 就 
能 看 明日 。 
这 个 表达 式 有 个 问题 ， 它 要 求 字 符 串 中 必须 出 现 一 个 斜 线 ， 如 果 
我 们 用 它 来 匹配 file.txt， 因 为 无 法 匹配 ， 所 以 没有 结 采 。 如 采 我 们 希望 
精益 求 精 ， 可 以 这 样 : 


if ($WholePath = ~m!*(.*)/({*/]*)$!) { 
# 能够 匹配 --$1 和 $2 都 合法 

SLeadingPath = $1; 

SFileName = $2; 


} el Se 1 

# 无 法 匹配 ， 文 件 名 中 不 包含 “/ 

SLeadingPath = "."; # 所 以 "file.txt" 应 该 是 "./file.txt" ("." 表 示 当 前 路 径 ) 
sFileName = $WholePath; 

} 


匹配 对 称 的 括号 


Matching Balanced Sets of Parentheses 


对 称 的 圆 括号 、 方 括号 之 类 的 符号 匹配 起 来 非常 麻烦 。 在 处 理 配 
置 文件 和 源 代 码 时 ， 经 常 需要 匹配 对 称 的 括号 。 例 如 ， 解 析 C 语言 代 
码 时 可 能 需要 处 理 某 个 函数 的 所 有 参数 。 画 数 的 参数 包含 在 函数 名 称 
之 后 的 括号 里 ， 而 这 些 参数 本 号 双 有 可 能 包含 和 套 的 函数 调用 或 是 算 
陈 中 的 括号 。 我 们 先 不 考虑 磐 套 的 括号 ， 你 或 许 会 想到 
\bfoo\ ([^])*\J， 但 这 行 不 通 。 


秉承 C 的 光 且 传统 ， 我 把 示范 函数 命名 为 foo。 表 达 式 中 的 标记 部 
分 是 用 来 捕获 参数 的 o 对 于 foo(2,°4.0) 和 foo (somevar,°3. 7) 之 类 的 
参数 ， 这 个 表达 式 完 全 没 问 题 。 但 是 ， 它 也 可 以 匹配 
too (par (somevar),*3.7) | Xm AR ERE o PUES 
TA) ] 尖 ， 更 聪明 的 办 法 。 

为 了 匹配 括号 部 分 ， 我 们 可 以 尝试 下 面 的 这 些 正则 表达 式 : 

1\ Cx) 括号 及 括号 内 部 的 任何 字符 。 

2\([A) ]*\) 从 一 个 开 括号 到 最 近 的 闭 括号 。 

3A (A () 1*\) 从 一 个 开 括号 到 最 近 的 闭 括号 ， 但 是 不 容许 其 中 
DENES ° 

图 5-1 显 示 了 对 一 行 简单 代码 应 用 这 些 表 达 式 的 结果 。 


需要 匹配 的 部 分 


val = foo(bar(this), 3.7) + 2 * (that - 1); 


Ty SY 
正则 表达 式 2 匹配 的 部 分 


正则 表达 式 1 匹配 的 部 分 


图 5-1: 三 个 表达 式 的 匹配 位 置 
我 们 看 到 ， 第 一 个 正则 表达 式 匹 配 的 内 容 太 多 〈 注 2) ， 第 二 个 正 
则 表达 式 匹 配 的 内 容 太 少 ， 第 三 个 正则 表达 式 无 法 匹配 。 孤 立地 看 ， 


第 三 个 正则 表达 式 能 够 匹配 ′(this)，， 但 是 因为 表达 式 要 求 它 必须 紧 
接 在 foo 之 后 ， 所 以 无 法 匹配 。 所 以 ， 这 三 个 表达 式 都 不 合格 。 

真正 的 问题 在 于 ， 大 多 数 系 统 中 ， 正 则 表达 式 无 法 匹配 任意 深度 
的 嵌 套 结构 。 在 很 长 的 时 间 内 ， 这 是 放 之 四 海 而 丝 准 的 规则 ， 但 是 现 
在 Perl、.NET 和 PCRE/PHP 都 提供 了 解决 的 办 法 (参见 第 328、436、 
475 页 ) 。 但 是 ， 即 使 不 用 这 些 功能 ， 我 们 也 可 以 用 正则 表达 式 来 匹配 
特定 深度 的 舰 套 括号 ， 但 不 是 任意 深度 的 舰 套 括号 。 处 理 单 层 舰 套 的 
正则 表达 式 是 : 

\AOI* AMO] * VAOI*) *\), 

DERE RA, PREAKNESS ATA e (Ae, FAAS Perl 
herr, TERE ESdepthZ Ja, ERENER LAVAL AIR 
EASdepthhme tS ° Ete AA Perl) “string x count” 运 算 符 ， 这 个 
运算 符 会 把 string 重 复 count 次 : 

$regex="\ A | A JA ('x $depth.'[A () ]*'.\) ) R 
$depth.\) ';， 这 个 表达 式 留 给 读者 分 析 。 


防备 不 期 望 的 匹配 


Watching Out for Unwanted Matches 

有 个 问题 很 容易 乓 记 ， 即 ， 如 采 待 分析 的 文本 不 符合 使 用 者 的 预 
期 ， 会 发 生 人 什么。 假设 你 需要 编写 一 个 过 滤 程 序 ， 把 普通 文本 转换 为 
HTML， 你 希望 把 一 行 连 字符 号 转换 为 HTML 中 代表 一 条 水 平 线 的 < 
HR>“。 如 果 使 用 搜索 -替换 命令 s- 类 /<HR>/， 它 能 替换 期 望 替换 的 
文本 ， 但 只 限于 它们 在 行 开头 的 情况 。 很 奇怪 吗 ?” 事实 上 ，s/- 类 /<HR 
>/ 会 把 <HR> 这 加 到 每 一 行 的 开头 ， 而 无 论 这 些 行 是 否 以 连 字 符 开 
头 o 


请 记 住 ， 如 果 荣 个 元 素 的 匹配 没有 硬性 规定 任何 必须 出 现 的 字 
符 ， 那么 它 总 能 匹配 成 功 。 -类 ， 从 字符 串 的 起 始 位 置 开 始 尝试 匹配 ， 
它 会 匹配 可 能 的 任何 连 字 符 。 但 是 ， 如 果 没 有 连 字 符 ， 写 仍然 能 匹配 
成 功 ， 这 完全 符合 星 号 的 定义 。 

在 某 位 我 非常 车 重 的 作者 的 作品 中 出 现 过 类 似 的 例子 ， 他 用 这 个 
例子 来 讲解 正则 表达 式 匹 配 一 个 数 ， 或 者 钙 整 数 或 者 是 浮 点 数 。 在 它 


的 正则 表达 式 中 ， 这 个 数 可 能 以 负数 符号 开头 ， 然 后 是 任意 多 个 数 
字 ， 然 后 是 可 能 的 小 数 点 ， 再 是 任何 多 的 数字 。 他 的 正则 表达 式 是 
「-? [0-9]*\.? [0-9]*, ° 

确实 ， 这 个 正则 表达 式 可 以 匹配 1 ` -272.37 ` 
129238843.、.191919， 甚 至 是 -.0 这 样 的 数 。 这 样 看 来 ， 它 的 确 是 个 不 
错 的 正则 表达 式 。 

但 是 你 Hw kt RK HK 如 A E 
Ac ‘this-has-no-number’ ‘nothing-here’ kæ 23 FFRI? 仔细 看 看 这 个 正 
则 表达 式 一 一 每 一 个 部 分 都 不 是 匹配 必须 的 。 如 果 存 在 一 个 数 ， 如 果 
正则 表达 式 从 在 字符 串 的 起 始 位 置 开始 ， 的 确 能 够 匹配 ， 但 是 因为 匹 
配 没有 任何 必须 元 素 。 此 正则 表达 式 可 以 匹配 每 个 例子 中 字符 串 开 头 
的 空 字符 。 实 际 上 它 甚 至 可 以 匹配 um:.123: 开 头 的 空 字符 ， 因 为 这 个 
空 字符 比 数字 出 现 得 更 早 。 

所 以 ， 把 真正 意图 表达 清楚 是 非常 重要 的 。 一 个 浮 点 数 必须 要 有 
至 少 一 位 数字 ， 否 则 就 不 是 一 个 合法 的 值 。 我 们 首先 假设 ， 在 小 数 点 
之 前 至 少 有 一 位 数字 (之 后 我 们 会 去 挥 这 个 条 件 ) 。 如 果 是 ， 我 们 需 
要 用 加 号 来 控制 这 些 数字 -? [0-9]+，。 

如 果 要 用 正则 表达 式 来 匹配 可 能 存在 的 小 数 点 (及 其 后 的 数 
字 ) ， 就 必须 认识 到 ， 小 数 部 分 必须 紧 接 在 小 数 点 之 后 。 如 果 我 们 简 
单 地 用 N? [0-9] 淡 ，， 那 么 无 论 小 数 点 是 否 存在 ，「[0-9] 湾 , 都 可 能 
配 。 

解决 的 办 法 还 是 厘清 我 们 的 意图 : 小 数 点 (以 及 之 后 的 数字 ) 是 
可 能 出 现 的 : | (\[0-9]*) ? ，。 这 里 ， 问 号 限定 (也 可 以 叫 “ 统 治 
governs” 或 者 “控制 controls”) 的 不 再 是 小 数 点 ， 而 是 小 数 点 和 后 面 的 小 
数 部 分 。 在 这 个 结合 体内 部 ， 小 数 点 是 必须 出 现 的 ， 如 果 没 有 小 数 
点 ， [0-9] 关 ， 根本 谈 不 上 匹配 。 

把 它们 结合 起 来 ， 就 得 到 -? [0-9]+ (\[0-9] 大 ) ? |。 这 个 表达 
式 不 能 匹配 ‘.007’， 因 为 它 要 求 整 数 部 分 必须 有 一 位 数字 。 如 果 我 们 作 
些 修改 ， 容 许 整数 部 分 为 空 ， 就 必须 同时 修改 小 数 部 分 ， 否 则 这 个 表 
达 式 就 可 以 匹配 空 字符 (这 是 我 们 一 开始 就 准备 解决 的 问题 ) 


fE RA DIE eA CK Be WY Ta OL eS ON B En: 
'-2 [0-9] +(\. [0-9] *) ? | -2\. [0-9] ts o JRE REAR DC BE DI) Be eR FEE 
的 小 数 (小 数 点 是 必须 的 ) 。 仔细 看 看 ， 仔 细 看 看 。 你 注意 到 了 吗 ? 
第 二 个 多 选 分 支 同 样 能 够 匹配 负数 符号 开头 的 小 数 ? ARRA mM e 
当然 ， 你 也 可 以 把 -? | 提出 来 ， 放 到 所 有 多 选 结构 的 外 面 : “ -? 
([0-9]+ (\.[0-9]*) ? \.[0-9]+) | ° 

虽然 这 个 表达 式 比 最 开始 的 好 得 多 ， 但 它 仍 然 会 匹配 
2003.04.12 这 样 的 数字 。 要 想 真 正 匹配 期 望 的 文本 ， 同 时 忽略 不 期 
望 的 文本 ， 求 得 平衡 ， 就 必须 了 解 实 际 的 竺 匹配 文本 。 我 们 用 来 提取 
浮 点 数 的 正则 表达 式 必 须 包 含 在 一 个 大 的 正则 表达 式 内 部 ， 例 如 用 
'A...$, 或 者 Mnum\s*=\s%*...$, ° 


匹配 分 隅 符 之 内 的 文本 


Matching Delimited Text 

匹配 用 分 隔 符 (以 某 些 字符 表示 ) 之 类 的 文本 是 常见 的 任务 ， 之 
前 的 匹配 双 3 引 号 内 的 文本 和 IP 地 址 只 是 这 类 问题 中 的 两 个 典型 例子 。 
其 他 的 例子 还 包括 : 

e 死 配 "/ 类 :和 :类 /之 间 的 C 语 言 注释 。 

e 迈 配 一 个 HTML tag, CMERI ZAIE, AA < CODE 
> o 

ete KHTML tag 标 注 的 文本 ， 例 如 在 HTML 代 码 ‘a<1> super 
exciting </I> offer! * 中 的 ‘super exciting’ ° 

e 匹配 .mailrc 文 件 中 的 一 行内 容 。 这 个 文件 的 每 一 行 都 按 下 面 的 数 
据 格 式 来 组 织 : 

alias 简称 电子 邮件 地 址 

例如 ‘alias jeff jfriedl@regex.info’ 〈 在 这 里 ， 分 隔 符 是 每 个 部 分 之 
间 的 空 日 和 换行 伯 ) 。 

e 匹配 引文 字符 串 (quoted string) ,但 是 容许 其 中 包含 转 义 的 引 
号 ， 例 如 ‘a passport needs av2\"x3\" likeness" of the holder’ ° 


e 解 析 CSV (2-54) 81, comma-separated values) 文件 。 

总 的 来 说 ， 处 理 这 些 任 务 的 步骤 是 : 

1. 匹 配 起 始 分 隔 符 (opening delimiter) 。 

2. 匹 配 正文 (main text， 即 结束 分 隅 符 之 前 的 所 有 文本 ) 。 

3. 匹 配 结束 分 隅 符 。 

我 曾经 说 过 ， 如 有 果 结 束 分 隔 符 不 只 一 个 字符 ， 或 者 结束 分 隔 符 能 
够 出 现在 正文 中 ， 这 种 任务 就 很 难 完 成 。 

容许 引文 字符 串 中 出 现 转 义 引号 

来 看 入 "x3\" 的 例子 ， 这 里 的 结束 分 隔 和 从 是 一 个 3 引号， 但 正文 也 
可 能 包含 转 义 之 后 的 引号 。 匹 配 开 始 和 结束 分 隔 符 很 容易 ， 记 守 就 在 
于 ， 匹 配 正文 的 时 候 不 要 超越 结束 分 隔 符 。 

仔细 想 想 正文 里 能 够 出 现 的 字符 ， 我 们 知道 ， 如 果 一 个 字符 不 是 
引号 ， 也 就 是 说 如 果 这 个 字符 能 由 '[^" ], 匹配 ， 那 么 它 肯 定 属于 正 
文 。 不 过 ， 如 果 这 个 字符 是 一 个 引号 ， 而 它 前 面 义 有 一 个 反 和 斜 线 ， 那 
么 这 个 引号 也 属于 正文 。 把 这 个 意思 表达 出 来 ， 使 用 环视 (133) 功 
能 来 处 理 * 如 果 之 前 有 反 斜 线 ” 的 情况 ， 就 得 到 A" (? <=\\) 
") we" ， 这 个 表达 式 完全 能 够 匹配 六 "xA" o 

不 过 ， 这 个 例子 也 能 用 来 说 明 ， 看 起 来 正确 的 正则 表达 式 如 何 会 
匹配 意料 之 外 的 文本 ， 它 虽然 看 起 来 正确 ， 但 不 是 任何 情况 下 都 正 
确 。 我 们 希望 它 匹 配 下 面 这 个 无 聊 的 例子 中 的 划 线 部 分 : 


Darth Symbol: sd Or "pa^" 


但 它 匹 配 的 是 : 


Darth Symbol: "/-|-\\" or "[*-*]" 


这 是 因为 ， 第 一 个 闭 引 号 之 前 的 确 存 在 一 个 反 和 斜 线 。 但 这 个 反 和 斜 
线 本 身 是 被 转 义 的 ， 它 不 是 用 来 转 义 之 后 的 双 引 号 的 〈 也 就 是 说 这 个 
引号 其 实 是 表示 引用 文本 的 结束 ) 。 而 逆序 环视 无 法 识别 这 个 被 转 义 
的 反 斜 线 ， 如 果 在 这 个 引号 之 前 有 任意 多 个 从 ， 用 逆序 环视 只 会 把 事 
情 弄 得 更 糟 。 原 来 的 表达 式 的 真正 问题 在 于 ， 如 琳 反 冬 线 是 用 来 转 义 
引号 的 ， 在 我 们 第 一 次 处 理 它 时 ， 不 会 认为 它 是 表示 转 义 的 反射 线 。 
所 以 ， 我们 得 用 别 的 办 法 来 解决 。 


仔细 想 想 我 们 想 要 匹配 的 位 于 开始 分 隔 符 和 结束 分 隔 符 之 间 的 文 
本 ， 我 们 知道 ， 其 中 可 以 包括 转 义 的 字符 ( \N, ) ， 也 可 以 包括 非 引 
号 的 任何 字符 “[^" 1, 。 于 是 我 们 得 到 OA") 大 ”|。 不 错 ， 
现在 这 个 问题 解决 了 。 不 竺 的 是 ， 这 个 表达 式 还 有 问题 。 不 期 望 的 匹 
配 仍然 会 发 生 ， 比 如 对 这 个 文本 ， 它 应 该 是 无 法 匹配 的 ， 因 为 其 中 没 
有 结束 分 隔 符 。 


"You need a 2\"x3\" Photo. 


为 什么 能 匹配 呢 ? 回忆 一 下 “匹配 优先 和 忽略 优先 都 期 望 获得 匹 
配 ”(167) 。 即 使 这 个 表达 式 一 开始 匹配 到 了 引号 之 后 的 文本 ， 如 果 
找 不 到 结束 的 引号 ， 它 束 会 回 滴 ， 到 达 
Ne), "3 


从 这 里 开始 ，“[ 和 ^"]| 匹配 到 反 斜 线 ， 之 后 的 那个 引号 被 认为 是 一 
TERNG F 

这 个 例子 给 我 们 的 重要 局 示 是 : 
如 果 回 济 会 导致 不 期 曾 ， 与 多 选 结构 有 关 的 匹配 结果 ， 问 题 很 可 能 在 
于 ， 任 何 成 功 的 匹配 都 不 过 是 多 选 分 支 的 排列 顺序 造成 的 偶然 结果 。 

实际 上 ， 如 采 我 们 把 这 个 正则 表达 去 的 多 选 分 文 瓜 过 来 排列 ， 它 
驶 会 错误 地 匹配 任何 包含 转 义 双 引 号 的 字符 串 。 真 正 的 问题 在 于 ， 各 
个 多 选 分 文 能 够 匹配 的 内 容 发 生 了 重奏 。 

那么 ， 应 该 如 何 解 决 这 个 问题 呢 ? 就 像 第 186 页 的 那个 连续 行 的 例 
子 一 样 ， 我 们 必须 确保 ， 这 个 反 斜 线 不 能 以 其 他 的 方式 匹配 ， 也 融 坪 
说 把 TA"), BOR IA" ]  。 这 样 就 能 识别 双 引 号 和 文本 中 的 “特殊 ” 反 
斜 线 ， 必 须根 据 情况 分 别处 理 。 结 果 就 是 WAAD A’ E 
工作 得 很 好 〈 尽 管 这 个 正则 表达 式 能 够 正常 工作 ， 但 对 于 NFA 引 擎 来 
说 ， 我 们 会 在 下 一 章 更 详细 地 看 这 个 例子 ， 
(7222) 。 

这 个 例子 告诉 我 们 一 条 重要 的 原理 : 
ADA ICS EIR TE: 例如 针对 “糟糕 (bad) ”的 数据 ， 

正则 表达 式 不 应 该 能 够 匹配 。 


我 们 的 修改 是 正确 的 ， 但 是 有 意思 的 是 ， 如 果 有 占有 优先 量词 
(142) 或 者 是 固化 分 组 (5139) ， 这 个 正则 表达 式 可 以 重新 写作 
om ee | 
表达 式 人 禁止 引擎 回调 到 可 能 出 问题 的 地 方 ， 所 以 它们 都 可 以 满足 要 
求 。 


理解 占有 优先 量词 和 固化 分 组 解决 此 问题 的 原理 非常 有 价值 ， 但 
征 我 仍然 要 继续 之 前 的 修正 ， 因 为 对 读者 来 说 它 更 具 描 述 性 (更 直 
M) 。 其 实在 这 个 问题 上 ， 我 也 愿意 使 用 占有 优先 量词 和 固化 分 组 
不 是 为 了 解决 之 前 的 问题 ， 而 是 为 了 效率 ， 因 为 这 样 报告 匹配 失 
败 的 速度 更 快 。 


了 解数 据 ， 做 出 假设 


Knowing Your Data and Making Assumptions 

现在 是 时 候 强 调 我 曾经 数 次 提 到 过 的 关于 构建 和 使 用 正则 表达 式 
的 一 般 规则 了 。 知 道 正则 表达 式 会 在 什么 情况 中 应 用 ， 关 于 目标 数据 
又 有 什么 样 的 假设 ， 这 非常 重要 。 即 使 简单 如 ai 这 样 的 数据 也 假设 
目标 数据 使 用 的 是 作者 预期 的 字符 编码 (105) 。 这 都 是 一 些 很 基本 
的 常识， 所 以 我 一 直 没 有 过 分 细致 地 介绍 。 

但 是 ， 许 多 对 某 个 人 来 说 明显 的 利 识 ， 可 能 对 其 他 人 来 说 并 不 明 
显 。 例 如 ， 前 一 世 的 解决 办 法 假设 转 义 的 换行 符 不 会 被 匹配 ， 或 者 会 
被 应 用 于 点 号 通 配 模式 (111) 。 如 果 我 们 真 的 想 要 保证 点 号 可 以 匹 
配 换行 符 ， 同 时 流派 也 支持 ， 我 们 应 该 使 用 (? s: .) |。 

前 一 世 中 我 们 还 假设 了 正则 表达 式 将 应 用 的 数据 类 型 ， 它 不 能 处 
理 表示 其 他 用 途 的 双 引 号 。 如 果 用 这 个 正则 表达 式 来 处 理 任何 程序 的 
源 代 码 ， 束 可 能 出 错 ， 因 为 注释 中 可 能 包括 双 引 号 。 

对 数据 做 出 假设 ， 对 正则 表达 式 的 应 用 方式 做 出 假设 ， 都 无 可 厚 
韭 。 问 题 在 于 ， 假 设 如 果 存 在， 通常 会 过 分 乐观 ， 也 会 低估 了 作者 的 
意图 和 正则 表达 式 最 终 应 用 间 的 差异 。 记 录 下 这 些 假设 会 有 帮助 。 


去 除 文本 首尾 的 空白 字符 


Stripping Leading and Trailing Whitespace 

去 除 文 本 下 尾 的 空 日 字符 并 不 难 做 到 ， 这 是 经 常 要 完成 的 任务 。 
总 的 来 说 最 好 的 办 法 是 使 用 下 面 两 个 蔡 换 ; 

s/\\st//; 

s/\st$//; 

为 了 增加 效率 ， 我 们 用 H 而 不 是 夫 ， ， 因 为 如 果 事 实 上 没有 需 
要 删除 的 空 日 字符 ， 就 不 用 做 奉 换 。 

出 于 某 些 考虑 ， 人 们 似乎 更 希望 用 一 个 正则 表达 式 来 解决 整个 问 
题 ， 所 以 我 会 提供 一 些 方法 供 比 较 。 我 不 推荐 这 些 办 法 ， 但 对 理解 这 
些 正则 表达 式 的 工作 原理 及 其 问题 所 在 ， 非 常 有 意义 。 

s/\s * (.* ?)\s * $/$1/s 

这 个 正则 表达 式 曾 被 用 作 降 解 名 略 优 先 量词 的 绝 佳 例子 ,但 现在 
不 是 了 ， 因 为 人 们 认识 到 它 比 普通 的 办 法 慢 得 多 (在 Perl 中 要 慢 5 
倍 ) 。 之 所 以 效率 这 么 低 ， 是 因为 忽略 优先 约束 的 点 号 每 次 应 用 时 都 
要 检查 \s 类 $| 。 这 需要 大 量 的 回 漳 。 

s/\\s * ((?:. *\S)?)\s * $/$1/s 

这 个 表达 式 看 起 来 比 上 一 个 要 复杂 ， 不 过 它 的 匹配 倒是 很 容易 理 
解 ， 而 且 所 花 的 时 间 也 只 是 普通 方法 的 2 倍 。 在 As 大 | 匹配 了 文本 开 
头 的 空格 之 后 ，“ .类 | 马上 匹配 到 文本 的 末尾 。 后 面 的 \S, 强迫 它 回 
漳 直 到 找到 一 个 非 空 的 字符 ， 把 剩 下 的 空白 字符 留 给 最 后 的 \s 类 $， ， 
捕获 括号 之 外 的 。 

问号 在 这 里 是 必须 的 ， 因 为 如 果 一 行 数据 只 包含 空 日 字符 的 行 ， 
必须 出 现 问 号 ， 表 达 式 才能 正常 工作 。 如 果 没 有 问号 ， 可 能 会 无 法 匹 
配 ， 错 过 这 种 只 有 空 日 字符 的 行 。 

s/\\st|\s+$//g 

这 是 最 容易 想到 的 正则 表达 式 ， 但 它 不 正确 (其 实 这 三 个 正则 表 
达 式 都 不 正确 ) ， 这 种 顶 极 的 (top-leveled) 多 选 分 支 排列 严重 影响 本 
来 可 能 使 用 的 优化 措施 (参见 下 一 章 ) 。/g 这 个 修饰 符 是 必须 的 ， 它 容 
许 每 个 多 选 分 支 匹配 ， 去 掉 开 始 和 结束 的 空格 。 看 起 来 ， 用 /g 是 多 此 一 


举 ， 因 为 我 们 知道 我 们 只 硕 望 去 掉 最 多 两 部 分 空白 字符 ， 每 部 分 对 应 
单独 的 子 表 达 式 。 这 个 正则 表达 式 所 用 的 时 间 是 简单 办 法 的 4 倍 。 

测试 时 我 提 到 了 相对 速度 ， 但 是 实际 的 相对 速度 取决 于 所 用 的 软 
件 和 数据 。 例 如 ， 如 果 目 标 文本 非常 非常 长 ， 而 且 在 首尾 只 有 很 少 的 
空格 ， 中 间 的 那个 表达 式 甚 至 会 比 简单 的 方法 更 快 。 不 过 ， 我 自己 在 
程序 中 仍然 使 用 下 面 两 种 形式 的 正则 表达 式 : 

s/\\st//:s/\s+$//; 

因为 它 几 乎 总 是 最 快 的 ， 而 且 显 然 最 容易 理解 。 


HTML 相 关 范 例 


HTML-Related Examples 

在 第 2 章 ， 我 们 曾 讨论 过 把 纯 文 本 转换 为 HTML 的 例子 (67) , 
其 中 要 使 用 正则 表达 式 从 文本 中 提取 E-mail 地 址 和 http URL。 本 节 来 看 
一 些 与 HTML 相 天 的 其 他 人 处理。 


匹配 HTML Tag 


Matching an HTML Tag 

最 常见 的 办 法 就 是 用 “<[^>]+> | 来 匹配 HTML 标签 。 它 通常 都 
能 工作 ， 例 如 下 面 这 段 用 来 去 除 标签 的 Pen 语句 : 

$html=~s/< [A> ]+ > //g; 

WRtagt RA >, CRAAHEIEM VEAL T , Mitt tagh AA ae 
乎 HTML 规范 的 : <input name=dir value= " > ”>。 虽 然 这 种 情况 很 
少见 ， 也 不 为 大 家 推荐 ， 但 HTML 语 言 确 实 容许 在 引号 内 的 tag 属 性 中 
出 现 非 转 义 的 < :和 “> ，。 这 样 ， 简 单 的 <[>]+> | 就 无 法 匹配 了 ， 
得 想 个 聪明 点 的 办 法 。 

‘<...>’ 中 能 够 出 现 引 用 文本 和 非 引 用 形式 的 “其 他 文本 (other 
stuff) ”， 其 中 包括 除了 ‘> 和 引号 之 外 的 任意 字符 。HTML 的 引文 可 
以 用 单 引 号 ， 也 可 以 用 双 引 号 。 但 不 容许 转 义 航 套 的 引号 ， 所 以 我 们 
可 以 直接 用 A" Jx "| AD A Re 。 

把 这 些 和 “其 他 文本 ”表达 式 TN" >], 合 起 来 ， 我 们 得 到 : 

P<" [天 Pe A" >>] 

ADRAR EA REA E, PRA EERE, PREPS AS SUR 


# 开始 尖 括 号 "<" 

# 任意 数量 的 ... 

# 双 引 号 字符 串 

# 或 者 是 ... 
LAJA # 单 引 号 字符 事 

# RAR... 

# 

四 

# 


这 个 表达 式 相 当 漂 亮 ， 它 会 把 每 个 引用 部 分 单 作为 一 个 单元 ， 而 
且 清 楚 地 说 明了 在 匹配 的 什么 位 置 容许 出 现 什么 字符 。 这 个 表达 式 的 
各 部 分 不 会 匹配 重复 的 字符 ， 因 此 不 存在 模糊 性 ， 也 束 不 需要 担心 发 
生前 面 例子 中 出 现 的 ,，“ 不 小 心 冒 出 来 (sneaking in) ” 非 期 望 匹 配 。 

不 知 你 是 否 注意 到 了 ， 最 开始 的 两 个 多 选 分 文 的 引号 中 使 用 了 
X ， 而 不 是 +， 。 引 用 字符 串 可 能 为 空 (例如 ‘alt=""’) ， 所 以 要 
用 & | 来 处 理 这 种 情况 。 但 不 要 在 第 三 个 多 选 分 支 中 用 『「 久 | 取代 
+), BATA" >], 只 接受 括号 外 的 ”多 | 的 限定 。 给 它 添加 一 个 加 
号 得 到 ” (I 和 ">]+) 类 ， ， 可 能 导致 非常 奇怪 的 结果 ， 我 不 期 望 读者 
现在 就 能 理解 ， 下 一 章 (226) 会 详细 讲解 它 。 

在 使 用 NFA 引 警 时， 我 们 还 需要 考虑 关于 效率 的 问题 : 既然 没有 
用 到 括号 匹配 的 文本 ， 我 们 可 以 把 它们 改 为 非 捕获 型 括号 (137) ° 
因为 多 选 分 支 之 间 不 存在 重复 ， 如 果 最 后 的 “> | 无 法 匹配 ， 那 么 回头 
来 演 试 其 他 的 多 选 分 文 也 是 徒 秀 的。 如 宁 一 个 多 选 分 文 能 够 在 茶 个 位 
置 匹 配 ， 那 么 其 他 多 选 分 文 肯定 无 法 在 这 里 匹配 。 所 以 ， 不 保存 状态 
也 无 所 请 ， 这 样 做 还 可 以 更 快 地 导致 失败 ， 如 果 找 不 到 匹配 结果 的 
话 。 我 们 可 以 用 固化 分 组 ”(? >...) | 而 不 是 非 捕获 型 括号 (或 者 用 
占有 优先 的 星 号 限定 ) 。 


匹配 HTML Link 


Matching an HTML Link 


假设 我 们 需要 从 一 份 文 档 中 提取 URL 和 链接 文本 ， 例 如 下 面 的 文 
本 中 标记 的 内 容 : 


…<a href="http://www.oreilly.com">O'Reilly Media</a>… 
es NLL 


AA <A> tag 的 内 容 可 能 相当 复杂 ， 我 会 分 两 步 实现 这 个 任务 。 
第 一 个 是 提取 <A> tag 内 部 的 内 容 ， 也 残 是 链接 文本 ， 然 后 从 <A>> 
tag 中 提取 URL 地 址 。 

实现 第 一 步 有 个 简单 办 法 ， 就 是 在 点 号 通 配 模 式 下 应 用 不 区 分 大 
小 写 的 “<ab (>J) > (x?) </a> | ， 这 里 使 用 了 忽略 优先 量 
词 。 它 会 把 <A> 的 内 容 放 入 $1， 把 链接 文本 放 入 $2。 当 然 ， 像 之 前 一 
样 ， 我 不 应 该 用 '[^>]+，， 而 应 该 使 用 前 几 节 中 的 表达 式 。 不 过 在 本 
太 ， 我 会 继续 使 用 这 个 简单 的 形式 ， 因 为 这 样 正则 表达 式 更 短 ， 也 更 
容易 讲解 。 

<A> 的 内 容 存 入 字符 串 之 后 ， 束 可 以 用 独立 的 正则 表达 式 来 检查 
它们 。 其 中 ，URL 是 href=value 属 性 的 值 。 之 前 已 经 说 过 ，HTML 容 许 
等 号 的 任意 一 侧 出 现 空白 字符 ， 值 可 以 以 引用 形式 出 现 ， 也 可 以 以 非 
引用 形式 出 现 。 下 面 的 Perl 代码 用 来 输出 变量 $Html 中 的 链接 。 


# 请 注意 ; while(,,.) 中 的 正则 表达 式 是 简化 的 形式 ， 请 参见 正文 
while ($Html =~ m{a\b([*>]+)>(.*?)</a>}ig) 
{ 
my $Guts = $1; # 把 匹配 结果 存 入 ，,， 
my $Link = $2; # .... MAEE 
if ($Guts =~ m{ 
"href" 属性 
"=" Ban THe oO FH 
HUA... 
双 引 号 字符 事 
RAR... 
单 引号 字符 串 
RAR... 
"其 他 文本 " 


({*'™>\s] +) 


+e We 2h Ae te =e Se 3 = 哲 


) 
ixi) 


my $Url = $+; # 获得 $1、$2 等 中 实际 参与 匹配 的 编号 最 大 的 捕获 型 括号 的 内 容 
print "SUrl with link text: $Link\n"; 
l | t 
} 
有 几 点 需要 注意 : 
e 我 们 为 匹配 值 的 每 个 多 选 结 构 都 添加 了 括号 ， 来 捕获 确切 的 文 
本 。 
e 因 为 我 使 用 了 某 些 括号 来 捕获 文本 ， 在 不 需要 捕获 的 地 方 我 使 用 
非 捕获 型 括号 ， 这 样 做 既 清楚 又 高 效 。 
e“ 其 他 字符 ”部 分 排除 了 空白 字符 ， 也 排除 了 引号 和 ‘>*。 
e 因 为 需要 捕获 整个 href 的 值 ， 这 里 使 用 了 '+, 来 限制 “其 他 文 
本 ”多 选 分 支 。 这 是 否 会 和 第 200 页 对 其 他 字符 应 用 '+ 一 样 导致 “非常 
TEMERE? 不 会 ， 因 为 这 外 面 没 有 直接 作用 于 整个 多 选 结构 的 量 
词 。 其 中 的 细 市 同样 会 在 下 一 人 划 讨 论 。 
根据 具体 文本 的 不 同 ， 最 后 ，URL 可 能 保存 在 $1、$2 或 者 $3 中 。 
此 时 其 他 捕获 型 括号 就 为 空 或 是 未 定义 。Perl 提 供 了 特殊 变量 $+， 代 表 
$1、$2 之 类 中 编号 最 靠 后 的 捕获 文本 。 在 本 例 中 ， 这 就 是 我 们 真正 需 
要 的 URL 。 


Perl 中 的 $+ 很 方便 ， 其 他 语言 也 提供 了 其 他 办 法 来 选择 捕获 的 
URL。 常 用 的 程序 语言 结构 就 可 以 检查 捕获 型 括号 ， 找 到 需要 的 内 
容 。 如 果 能 够 支持 ， 命 名 捕获 (138) 最 适用 于 干 这 个 ， 就 像 204 页 
的 VB.NET 的 例子 那样 ( 焉 亏 .NET 提 供 了 命名 捕获 ， 因 为 它 的 $+ 有 问 
fl, (F424) ° 


检查 HTTP URL 


Examining an HTTP URL 

现在 我 们 得 到 了 URL 地 址 ， 来 看 看 它 是 否 是 HTTP URL, WR 
是 ， 就 把 它 分 解 为 主机 名 (hostname) 和 路 径 (path) 两 部 分 。 因 为 已 
经 有 了 URL， 任 务 束 比 从 随机 文本 中 识别 URL 要 人 简 蛙 许多， 识别 的 程 
序 要 难 许 多 ， 这 将 在 后 文 介绍 。 

所 以 ， 如 果 拿 到 一 个 URL， 我 们 需要 能 够 将 它 拆 分 为 各 个 部 分 。 
主机 名 是 “Ahttp: /, 之 后 和 第 一 个 反 斜 线 (如 果 有 的 话 ) 之 前 的 内 
容 ， 而 路 径 就 是 除 此 之 外 的 内 容 : TAhttp: / M+) Ux) ? $) 

URL 中 有 可 能 包含 端口 号 ， 它 位 于 主机 名 和 路 径 之 间 ， 以 一 个 冒 
号 开头 :Ahtp: / ([N: ]+) (: (d+) )? Uwe) 2 $) o 

下 面 是 一 个 分 解 URL 的 Perl 代 码 : 


iE (Suri =m {BEEPS ALT STA EFT E Ay SEL) 

{ 
my Shost = $1; 
my Sport = $3 || 80; # 如果 存在 ， 就 使 用 $3; 否则 默认 为 80 
my $path = $4 || "/"; # 如 果 存 在 ， 就 使 用 $4; 否则 默认 为 "/" 


print "Host: $host\n"; 
print "Port: S$port\n"; 
print "Path: $path\n"; 
else { 

print "Not an HTTP URL\n"; 


“一 


验证 主机 名 


Validating a Hostname 


在 上 面 的 例子 中 ， 我 们 用 TIIN: 1+, 来 匹配 主机 名 。 不 过 ， 在 第 2 
章 中 (976) 我 们 使 用 的 是 更 复杂 的 “ [az]+ (\.[-a-z]+) ¥\. 
(comledul...linfo) |; 。 做 同样 的 事情 ， 复 杂 程 度 为 什么 会 有 这 么 大 的 
差别 ? 

MA, 虽然 二 者 都 用 来 “匹配 主机 名 *， 方 法 却 大 不 相同 。 从 已 知 
文本 (例如 ， 从 现成 的 URL 中 ) 中 提取 一 些 信息 是 一 回 事 ， 从 随机 文 
本 中 准确 提取 同样 信息 是 另 一 回 事 。 

而 且 ， 在 上 例 中 我 们 假设 ，‘http: /之 后 就 是 主机 名 ， 所 以 用 
TN: J+, 来 匹配 就 是 理所当然 的 。 但 是 在 第 2 章 的 例子 中 ， 我 们 使 用 
正则 表达 式 从 随机 文本 中 寻找 主机 名 ， 所 以 它 必 须 更 加 复杂 © 

现在 从 另外 一 个 角度 来 看 主机 名 的 匹配 ， 我 们 可 以 用 正则 表达 式 
来 验证 主机 名 。 也 就 是 说 ， 我 们 需要 知道 ， 一 串 字 符 是 否 是 形式 规 
范 、 语 意 正确 的 主机 名 。 按 规定 ， 主 机 名 由 点 号 分 隔 的 部 分 组 成 ， 每 
个 部 分 可 以 包括 ASCII 字符 、 数 字 和 连 字符 ， 但 是 不 能 以 连 字 符 作为 
开头 和 结尾 。 所 以 ， 我 们 可 以 在 不 区 分 大 小 写 的 模式 下 使 用 这 个 正则 
表达 式 : “ [a-z0-9]|[a-z0-9][-a-z0-9] * [a-z0-9], ° 结尾 的 后 缀 部 分 
(cow ` ‘edu’ ` ‘uk’#) 只 有 有 限 多 个 可 能 ， 这 在 第 2 章 的 例子 中 提 
到 过 。 结 合 起 来 ， 下 面 的 正则 表达 式 就 能 够 匹配 一 个 语意 正确 的 主机 
名 : 


VB.NET 中 的 link 检查 程序 
下 面 的 程序 会 列 出 Html 变量 中 的 链接 ; 


Imports System.Text.RegularExpressions 


1 设置 特 环 中 将 会 遇 到 的 正则 表达 式 
Dim A_RRegex as Regex = New Regex ( 
"“<a\b (?<guts>[*>]+)>(?<Link>.*?)</a>", 
RegexOptions.IgnoreCase) 
Dim GutsRegex as Regex = New Regex( _ 
"\b HREF (24 'href' Mit ) 
"\s* = \s* (?4 ‘=' 可 能 存在 空白 字符 ) 
pal (24 ) 
" aiaa Ae: ES adai ee (24 ) 
| (24 stia ) 
"(?<url>[*']}*)' (28 ) 
| (2# ) 
(2<url>[*'"">\s)+) (24 ) 
by (24 ) ad 内 一 
RegexOptions.IqnoreCase Or RegexOptions. IqnorePatternWhitespace) 


rTrrrenhe mh mw 


E S 2 ES FSS 


1 现在 检查 'Html' FF... 
Dim CheckA as Match = A_Regex.Match (Html) 


” For each match within ... 
While CheckA.Success 
! GEE <a> tag, 现在 检查 URL 
Dim UrlCheck as Match = _ 
GutsRegex.Match (CheckA.Groups ("guts") .Value) 
Tf UrlCheck.Success 
' CHEREE, HF] URL/link 
Console.WriteLine ("Url " & UriCheck.Groups("url").Value & _ 
”WITH LINK ”5 CheckA.Groups ("Link") .Value) 
End If 
CheckA = CheckA.NextMatch 
End While 


需要 注意 的 几 点 : 
e 在 VB.NET 中 使 用 正则 表达 式 . 需要 首先 执行 对 应 的 Imports 64), SMES 
应 当 导 入 的 库 文 件 。 


程序 中 使 用 了 '(?#…) | 风格 的 注释 , 因为 VB.NET 中 加 入 换行 符 很 不 方便 , 所 以 普 
通 的 “#” 注 释 会 延伸 到 下 一 个 换行 符 或 者 字符 事 的 结尾 (第 一 种 情况 即 意味 着 正 
则 表达 式 剩 下 的 所 有 内 容 都 作为 注释 )。 ATRAER Pite, 请 在 每 一 行 的 
结 站 添加 5chr (10) (7420), 


表达 式 中 的 每 个 双 引 号 部 需要 以 “"” 表示 ($103), 


两 个 表达 式 都 用 到 了 命名 捕获 ，Groups ("url") 比 Groups (1) 4#e Groups (2) 之 类 
更 为 清晰 。 


Sie # 进行 不 区 分 大 小 写 的 匹配 
# EAA FS MERDE YB D 


(?: [a-z0-9]\. | [a-z0-9) [-a-z0-9] *(a-z0-9]\. )+ 
# 然后 是 结尾 的 后 组 部 分 ., ， 
(?: comledulgov|int|mil|netlorg|biz|info|name|lmuseum|cooplaero| [a-2] [a-2] ) 


因为 存在 长 度 的 限制 ， 能 够 由 这 个 正则 表达 式 匹 配 的 可 能 并 不 是 
合法 的 主机 名 : 每 个 部 分 不 能 超过 63 个 字符 。 也 就 是 说 ，“[-a-z0-9] 
大 | 应 该 改 为 “[-a-z0-9]{0，61}, ° 

还 需要 做 最 后 的 改动 。 按 规定 ， 只 包括 后 组 的 主机 名 同样 是 语意 
正确 的 。 但 实践 证 明 ， 这 些 “ 主 机 名 ?不 存在 ， 但 是 对 于 两 个 字母 的 后 
组 来 说 情况 可 不 是 如 此 。 人 例如， 安哥拉 的 域名 “ai 就 有 一 个 web 服务器 
http: /Wai/。 我 见 过 其 他 这 样 的 链接 : cc、co、dk、mm、ph、t、tv 和 
tw ° 


如 果 希 望 匹配 这 些 特殊 情况 ， 应 该 把 中 间 的 ，”(? : ...) +| 改 为 


GE 

(?i) # 进行 不 区 分 大 小 写 的 匹配 

# 。 零 个 或 多 个 据点 分 也 的 部 分 

(?: [a-z0-9)\. | [a-z0-9] [-a-z0-9] {0,61} [a-z0-9]\. )* 

E ”然后 是 结尾 的 后 级 部 分 ， 

(?: com|edu|gov|int|mil|net|org|biz|info|name|museum|coop|aero| [a-z] [a-z] ) 


现在 它 可 以 用 来 验证 包含 主机 名 的 字符 串 了 。 因 为 这 是 我 们 想 出 
的 与 主机 名 相关 的 三 个 正则 表达 式 中 最 复杂 的 ， 你 也 许 会 想 ， 不 要 这 
些 销 点 ， 可 能 比 之 前 那个 从 随机 文本 中 提取 主机 名 的 表达 式 更 好 。 但 
情况 并 非 如 此 。 这 个 正则 表达 式 能 匹配 任意 双 字 母 单词 ， 正 因为 如 
此 ， 第 2 章 中 不 那么 精妙 的 正则 表达 式 的 实际 效果 更 好 。 但 是 在 下 一 
方 我 们 会 看 到 ， 某 些 情况 下 它 仍 然 不 够 完善 。 


在 真实 世界 中 提取 URL 


Plucking Out a URL in the Real World 


供职 于 Yahoo! Finance 时 ， 我 曾 写 过 处 理 收 条 的 财经 新 闻 和 数据 的 
程序 。 新 闻 通 常 是 以 纯 文本 格式 提供 的 ， 我 的 程序 将 其 转化 为 HTML 格 
式 以 便于 显示 (如 果 你 在 过 去 10 年 中 曾经 在 http: /finance.yahoo.com 浏 
览 过 财经 新 闻 ， 没 准 看 过 我 处 理 过 的 新 闻 ) 。 

因为 接受 的 数据 的 “格式 ”( 其 实 是 无 格式 ) 很 杂乱 ， 从 纯 文 本 中 
识别 (recognize) 出 hostname 和 UREL 又 比 验证 (validate) 它们 困难 得 
多 ， 这 任务 束 很 不 轻松 。 前 面 的 内 容 并 没有 体现 这 一 点 ， 在 本 方 ， 你 
会 看 到 我 在 Yahoo! 用 来 解决 这 个 问题 的 程序 。 

这 个 程序 从 文本 中 提取 几 种 类 型 的 URL 一 一 mailto、http、https 和 
ftp。 如 果 我 们 在 文本 中 找到 ‘http: // ， 就 知道 这 肯定 是 一 个 URL 的 开 
头 ， 所 以 我 们 可 以 直接 用 http: Aw Awiw) +, 来 匹配 主机 
名 。 我 们 知道 ， 要 处 理 的 文本 肯定 是 ASCII 编 码 的 英文 字母 ， 所 以 完全 
可 以 用 "Aw, BUC '-a-z0-9, 。 Aw) 同样 可 以 匹配 下 画 线 ， 在 某 些 系 
统 中 ， 它 还 可 以 匹配 所 有 的 Unicode 字 符 ， 但 是 我 们 知道 ， 这 个 程序 在 
运行 时 不 会 遇 到 这 些 问题 。 

不 过 ，URL 通 常 不 是 以 http: /或 者 mailto: 开头 的 ， 例 如 : 

...Visit us at www.oreilly.com or mail to orders@oreilly.com... 

在 这 种 情况 下 ， 我 们 需要 加 倍 小 心 。 我 在 Yahoo! 使 用 的 正则 表达 
式 与 前 面 那 方 的 非常 相似 ， 只 是 有 一 点 点 不 同 : 


(?i: [a-z0-9] (?: [-a-z0-9]*[a-z0-9])? \. )+ # 子 域 名 s 
# .com 之 类 的 后 级 . 要 求 小 写 

(?-i: com\b 

edu\b 

biz\b 

org\b 

gov\b 

in(?: 七 |fo)\b # .int 或 者 .info 

mil\b 

net\b 

name \b 

museum\b 

coop\b 

aero\b 

[a-z][a-z]\b + 双 字母 国家 代码 


AIS PEMA, BATA (? i: ...) MD (? -i: ...) | 
用 来 规定 正则 表达 式 的 某 个 部 分 是 否 区 分 大 小 写 (135) 。 我 们 希望 
匹配 www.OReilly.com’*， 但 不 是 ‘NT.TO’ 这 样 的 股票 代码 (NT.TO 是 北 
电网 络 在 多 伦 多 证 券 交 易 市 场 的 代号 ， 因 为 要 处 理 的 是 财经 新 闻 和 数 
据 ， 这 样 的 股票 代码 很 多 ) 。 按 规定 ，URL 的 结尾 部 分 (例如 ‘.com?’) 
可 能 是 大 写 的 ， 但 我 不 准备 处 理 这 些 情 况 。 因 为 我 需要 保持 平衡 
匹配 期 望 的 文本 ( 尽 可 能 多 的 URL) ， 和 忽略 不 期 望 的 文本 (股票 代 
码 ) 。 我 希望 ”(? ji: ...) | 只 包括 国家 代码 ， 但 是 在 现实 中 ， 我 们 没 
有 过 到 大 写 的 URL 地 址 ， 所 以 不 必 这 么 做 。 

下 面 是 从 纯 文 本 中 得 找 URL 的 框架 ， 我 们 可 以 在 其 中 添加 匹配 主 
机 名 的 子 表达 式 : 


\b 
# 匹配 开头 部 分 (proto://hostname, 或 直接 是 hostname) 
( 
# ftp://、http:// 或 https:// 开头 部 分 
(ftp| https?) ://[(-\w]+(\.\w[-\w] *) + 
| 
# 或 者 是 用 更 准确 的 子 表达 式 找 到 hostname 


full-hostname-regex 


# FRE Mano > 
( : \d¥ )? 


# 下 面部 分 可 能 出 现 ， 以 /开头 
( 
/ path-part 

)? 

我 还 没有 谈论 过 正则 表达 式 的 path (路 径 ) 部 分 ， 它 接 在 主机 名 
后 面 (例如 http: //www. orielly.com/catalog/regex/ 中 的 划 线 部 
T) 。path 是 最 难 正确 匹配 的 文本 ， 因 为 它 需 要 一 些 猜 测 才 能 做 得 很 漂 
亮 。 我 们 在 第 2 章 说 过 ， 通 党 出 现在 URL 之 后 的 文本 也 能 被 作为 URL 
的 一 部 分 。 例如; 

Read his comments at 
http: //www.oreilly.com/ask_tim/index.html.He... 我 们 观察 之 后 就 会 发 
现 ， 在 ‘index.html 之 后 的 句号 是 一 个 标点 ， 不 应 该 作为 URL 的 一 部 


I, (BÆ ‘index.htm 中 的 点 号 却 是 URL 的 一 部 分 。 


肉眼 很 容易 分 辨 这 两 种 情况 ， 但 程序 做 起 来 却 很 难 ， 所 以 必须 想 
些 聪明 的 办 法 来 尽 可 能 好 地 解决 问题 。 第 2 章 的 例子 使 用 逆序 环视 来 确 
保 URL 不 会 以 句 末 的 句号 结尾 。 我 在 Yahoo! Finance 写 程序 时 还 没有 逆 
序 环视 ， 所 以 我 用 的 办 法 要 复杂 的 多 ， 不 过 效果 是 一 样 的 。 代 码 在 下 
一 页 可 

示例 5-1: 从 财经 新 闻 中 提取 URL 


\b 
# 匹配 开头 部 分 (proto://hostname， 或 直接 是 hostname) 
( 
# ftp://, http://& https:// 开头 部 分 
(ftp| https?) ://[-\w)+(\.\w[-\w] *) + 
| 
# 或 者 是 用 更 准确 的 子 表 达 式 找到 hostnarme 
(21: [a-z0-9) (?:[-a-z0-9]*[a-z0-9])? \. )+ # sub domains 
# .com 之 类 的 后 级 ,要求 小 写 
(?-i: com\b 
edu\b 
biz\b 
gov\b 
in(?:t| £0) \b # ,int 或 者 .info 
mil\b 
net\b 
org\b 
[a-z] [a-z] \b #， 双 字母 国家 代码 


) 
) 
# 可 能 出 现 端口 号 
(3 yat)? 


# 剩 下 的 部 分 可 能 出 现 ， 以 /开头 ，.， 
( 
/ 


i RARLA, CHET 

[^ 12" "<> () VAJ (}\S\X7P=\xFF] * 

(?: 

[t?le [*. fp 28" <>) NN {NS\X7F-\xFF]+ 

)* 
)? 
这 里 用 到 的 办 法 与 第 2 草 第 75 页 用 到 的 办 法 有 很 多 不 同 ， 比 较 起 来 
也 很 有 意思 。 下 一 页 里 使 用 此 表达 式 的 Java 程 序 详细 介绍 了 它 的 构造 。 

在 实际 生活 中 ， 我 怀疑 自己 是 否 会 写 这 样 繁杂 的 正则 表达 式 ， 但 
是 作为 取代 ， 我 会 建立 一 个 正则 表达 式 “ 库 (library) ”， 需 要 时 取 用 。 
这 方面 一 个 简单 的 例子 就 是 第 76 页 的 $HostnameRegex， 以 及 下 面 的 补 
ENE ° 


扩展 的 例子 


Extended Examples 

下 面 的 几 个 例子 讲解 了 一 些 关 于 正则 表达 式 的 重要 诀 穷 。 讨 论 会 
稍微 多 一 些 ， 天 于 解决 办 法 和 错误 思路 的 着 兴 也 会 更 多 一 些 ， 最 终 会 
给 出 正确 答案 。 


在 Java 中 通过 变量 构建 正则 表达 式 


String SubDomain = "(?1: [a=-z0-9] | [a-z0-9] [-a-z0-9} * [a-z0-9])"; 
String TopDomains = "(?x-i:com\\b Yn? + 
ladu\\b \n" + 
|biz\\b \n" + 
}in(?:t|£o)\\b \n" + 
|mil\\b NAN + 
|net\\b An” + 
}org\\b Yat + 
| [a-z] [a-z] \\b \n" + 
| \n"; 
String Hostname = "(?:" + SubDomain + "\\.)+" + TopDomains; 


// country codes 


String NOTIN = "s\""<>()\\[\\]{)\\S\\K7EH=\\KFE"; 
String NOT END = "!.,2"; 
String ANYWHERE = "(*" + NOT IN + NOT END + "]"; 
String EMBEDDED = "[" + NOT END + mins 
String UrlPath = "/"+ANYWHERE + "*("+EMBEDDED+"+"+ANYWHERE+"+) *"; 
String Url = 
Wl es \n"+ 
\\b \n"+ 
## EE hostname \n"+ 
{ \n"+ 
(?: ftp | http s? ): // [-\\w]+(\\.\\w[-\\w]*) + \n"+ 
| \n"+ 
" + Hostname + " \n"+ 
) \n"+ 
上 # PHAROS \n"+ 
(23 s\\dt )? \n"+ 
\n"+ 
# 下 面 的 部 分 可 能 出 现 ， 以 \ 开 类 \n"+ 
{(?: " + UrlPath + ")? \n"+ 
" ) 
// 现在 把 正则 表达 式 编译 为 正 划 对 象 
Pattern UrlRegex = Pattern.compile (Url); 


// MERGATAPAR, Furl... 


wee 


保持 数据 的 协调 性 


Keeping in Sync with Your Data 

我 们 来 看 一 个 长 一 点 的 例子 ， 它 有 点 极端 ， 但 很 清楚 地 说 明了 保 
持 协 调 的 重要 性 (同时 提供 了 一 些 保持 协调 的 方法 ) 。 

假设 ， 需 要 处 理 的 数据 是 一 系列 连续 的 5 位 数 美国 邮政 编码 (ZIP 
Codes) ， 而 需要 提取 的 是 以 44 开 头 的 那些 编码 。 下 面 是 一 点 抽样 ， 我 
们 需要 提取 的 数值 用 粗 体 表示 : 

03824531449411615213441829505344272752010217443235 

最 容易 想到 的 "ddd\d\d，， 它 能 匹配 所 有 的 邮政 编码 。 在 Perl 中 
可 以 用 @zips=mAd\d\d\d\d/g; 来 生成 以 邮政 编码 为 元 素 的 list (为 了 让 
这 些 例 子 看 起 来 更 整洁 ， 我 们 假设 需要 处 理 的 文本 在 Pen 的 默认 目标 变 
量 $_ 1, Wler79) 。 如 果 使 用 其 他 语言 ， 也 只 需要 循环 调用 正则 表达 
式 的 find 方法 。 我 们 关注 的 是 正则 表达 式 本 号 ， 而 不 是 语言 的 实现 机 
制 ， 所 以 下 面 继 续 使 用 Perl 。 

回 到 “\d\d\d\d\d，， 下 面 提 到 的 这 一 点 很 快 就 会 体现 出 其 价值 ， 在 
整个 解析 过 程 中 ， 这 个 正则 表达 式 任何 时 候 都 能 够 匹配 一 一 绝对 没有 
传动 装置 的 驱动 和 重 试 (我 假设 所 有 的 数据 都 是 规范 的 ， 此 假设 与 具 
体 情况 密切 相关 ) 。 

AAG. FE \d\d\did\d, 改 为 “44\d\d\d | 来 查找 以 44 开头 的 邮政 编 
码 不 是 个 好 办 法 一 一 匹配 失败 之 后 ， 传 动 装置 会 驱动 前 进 一 个 字符 ， 
对 “44... | 的 匹配 不 再 是 从 每 个 邮政 编码 的 第 一 位 开始 。 '44\d\d\d | 会 
错误 地 匹配 '...5314494116...”。 

当然 ， 我 们 可 以 在 正则 表达 式 的 开头 添加 “\A，， 但 是 这 样 只 能 对 
付 一 行文 本 中 的 第 一 个 邮政 编码 。 我 们 需要 手动 保持 正则 引擎 的 协 
调 ， 才 能 忽略 不 需要 的 邮政 编码 。 这 里 的 关键 是 ， 要 跳 过 完整 的 邮政 
编码 ， 而 不 是 使 用 传动 装置 的 驱动 过 程 (bump-along) 来 进行 单个 字符 
的 移动 。 

根据 期 望 保持 匹配 的 协调 性 

下 面 列举 了 几 种 办 法 用 来 跳 过 不 需要 的 邮政 编码 。 把 它们 添加 到 
正则 表达 式 44\d\d\d | 之前， 可 以 获得 期 望 的 结果 。 非 捕获 型 括号 用 来 


匹配 不 期 望 的 邮政 编码 ， 这 样 能 够 快速 地 略 过 它们 ， 找 到 匹配 的 邮政 
编码 ， 在 第 一 个 $1 的 捕获 括号 中 : 

[(2:[A4]\d\d\d\d|\d[4]\d\d\d)* ... 

这 种 硬 办 法 (brute-force method) 主动 略 过 非 44 开 头 的 邮政 编码 
(当然 , 用 [1235-9] 替代 mM] 可 能 更 合适 ， 但 我 之 前 说 过 ， 假 设 
处 理 的 是 规范 的 数据 ) 。 注 意 ， 我 们 不 能 使 用 (2: [A4][A4]\dvdNd) 
类， ， 因 为 它 不 会 匹配 (也 就 无 法 略 过 ) 43210 这 样 不 期 望 的 邮政 编 
fi o 

[(2:(2144)\d\d\d\d\d) *... , 

这 个 办 法 跳 过 非 44 开 头 的 邮政 编码 。 其 中 的 想法 与 之 前 并 无 差 
别 ， 但 用 正则 表达 式 写 出 来 就 显得 大 不 一 样 。 比 较 这 两 段 描述 和 相关 
的 正则 表达 式 就 会 发 现 ， 在 这 里 ， 期 望 的 邮政 编码 〈 以 44 开 头 ) 导致 
逆序 环视 (? ! 44) 失败 ， 于 是 略 过 停止 。 

[(2:\d\d\d\d\d)*?... , 

这 个 办 法 使 用 忽略 优先 量词 ， 只 有 在 需要 的 时 候 才 略 过 某 些 文 
本 。 我 们 把 它 放 在 真正 需要 匹配 的 正则 表达 式 前 面 ， 所 以 如 果 那 个 表 
达 式 失败 ， 它 就 会 匹配 一 个 邮政 编码 。 忽 略 优先 ” (.….) 类 ? | 导致 这 
一 切 的 发 生 。 因 为 存在 忽略 优先 量词 ，' (? : \d\d\d\d\d) ， 甚 至 都 不 
会 笑 试 匹配 ， 在 后 面 的 表达 式 失 败 之 前 。 星 号 确保 了 ， 它 会 重复 失 
败 ， 直 到 最 终 找到 匹配 文本 ， 这 样 就 能 只 跳 过 我 们 希望 跳 过 的 文本 。 

把 这 个 表达 式 和 ' (44\d\d\d) , 合 起 来 ， 就 得 到 : 

@zips=m/ (?:\d\d\d\d\d) *?(44\d\d\d) /g; 


它 能 够 提取 以 44 开 头 的 邮编 ， 而 主动 跳 过 其 他 的 邮编 
(在 “@array=my/.../g2" 的 情况 下 ，Perl 会 用 每 次 演 试 中 找到 的 匹配 文本 来 
TAIN SEMAN, 311) 。 这 个 表达 式 能 够 重复 应 用 于 字符 串 ， 因 为 我 
们 知道 每 次 匹配 的 “起 始 匹 配 位 置 * 都 是 某 个 邮政 编码 的 开头 位 置 ， 也 
就 保证 下 一 次 匹配 是 从 一 个 邮政 编码 的 开始 ， 这 正 是 正则 表达 式 期 望 
的 。 
不 匹配 时 也 应 当 保证 协调 性 


我 们 是 否 能 保证 ， 每 次 正则 表达 式 都 在 邮政 编码 字符 串 的 开头 位 
置 应 用 ? 显然 不 是 ! 我 们 手动 跳 过 了 不 符合 要 求 的 邮政 编码 ， 可 一 旦 
不 需要 继续 匹配 ， 本 轮 匹配 失败 之 后 自然 就 是 驱动 过 程 和 重 试 ， 这 样 
就 会 从 邮政 编码 字符 串 之 中 的 某 个 位 置 开始 一 我 们 的 方法 不 能 处 理 
这 种 情况 。 

再 来 看 数据 样本 : 


03824531449411615213441829503544272 7 5 2 010217443235 
N a | ee eae We E A-A A ee 


匹配 的 代码 以 粗 体 标 注 (第 三 组 不 符合 要 求 ) ， 主 动 跳 过 的 代码 
以 下 画 线 标注 ， 通 过 驱动 过 程 - 重 试 略 过 的 字符 也 标记 出 来 。 在 44272 匹 
配 之 后 ， 目 标 文 本 中 再 也 找 不 到 匹配 ， 所 以 本 轮 党 试 宣告 失败 。 但 总 
的 党 试 并 没有 宣告 失败 。 传 动机 构 会 进行 驱动 ， 从 字符 串 的 下 一 个 字 
符 开 始 应 用 正则 表达 式 ， 这 样 就 破坏 了 协调 性 。 在 第 四 次 驱动 之 后 ， 
正则 表达 式 略 过 10217， 错 误 地 匹配 44323。 

如 果 在 字符 串 的 开头 应 用 ， 这 三 个 表达 式 都 没有 问题 ， 但 是 传动 
装置 的 驱动 过 程 会 破坏 协调 性 。 如 果 我 们 能 取消 驱动 过 程 ， 或 者 保证 
驱动 过 程 不 会 添 麻 烦 ， 问 题 就 解决 了 。 

办 法 之 一 是 禁止 驱动 过 程 ， 即 在 前 两 种 办 法 中 的 ”(44\dd\d) | 之 
后 添加 ? ，， 将 其 改 为 匹配 优先 的 可 选项 。 这 样 ， 刻 意 安 排 的 
9: (? | 44) \dd\didd) 类 .| 或 ' (? 
[A4]\d\d\d\d\d[4]\d\d\d) *..., 就 只 会 在 两 种 情况 下 停止 : 发 生 符合 
求 的 匹配 ， 或 者 邮政 编码 字符 串 结束 (这 也 是 此 方法 不 适用 于 第 三 个 
表达 式 的 原因 ) 。 这 样 ， 如 果 存 在 符合 要 求 的 邮政 编码 ， 
| (44\d\d\d) ? 就 能 匹配 ， 而 不 会 强迫 回溯 。 

这 个 办 法 仍然 不 够 完善 。 原 因 之 一 是 ， 即 便 目 标 字符 串 中 没有 符 
合 要 求 的 邮政 编码 ， 也 会 匹配 成 功 ， 接 下 来 的 处 理 程序 会 变 得 更 复 
杂 “。 不 过 ， 其 优点 在 于 速度 很 快 ， 因 为 不 需要 回溯 ， 也 不 需要 传动 装 
置 进行 任何 驱动 过 程 。 

使 用 G 保 证 协调 

更 通用 的 办 法 是 在 这 三 个 表达 式 末 尾 添加 NG] (130) 。 因 为 
每 个 表达 式 的 每 次 匹配 都 以 符合 要 求 的 邮政 编码 结尾 ， 下 次 匹配 开始 


时 就 不 会 进行 驱动 。 而 如 果 有 驱动 过 程 ， 开 头 的 \G | 会 立刻 导致 匹配 
失败 ， 因 为 在 大 多 数 流派 中 ， 只 有 在 未 发 生 张 动 过 程 的 情况 下 ， 它 才 
能 成 功 匹 配 (但 在 Ruby 和 其 他 规定 \G | 表示 “本 次 匹配 起 始 位 置 ” 的 流 
YR AN ACA & 131) 

所 以 第 二 个 表达 式 就 变 成 了 : 

@zips = m/\G(?: (?!44) \d\d\d\d\d)*(44\d\d\q)/g; 

匹配 之 后 不 需要 进行 任何 特殊 检查 © 

本 例 的 意义 

我 自 先 承认 ， 这 个 例子 有 点 极端 ， 不 过 ， 它 包含 了 许多 保证 正则 
表达 式 与 数据 协调 性 的 知识 。 如 果 现 实生 活 中 需要 处 理 这 样 的 问题 ， 
我 可 能 不 会 完全 用 正则 表达 式 来 解决 。 我 会 直接 用 \dd\d\d\d , 来 提出 
每 个 邮政 编码 ， 人 然后 检查 它 是 否 以 144’ 开头。 在 Perl 中 是 这 样 : 

@zips = ( ); # 确保 数组 为 空 


while (m/(\d\d\d\d\d)/g) { 
Szip = $1; 
if (substr($zip, 0, 2) eq "44") { 
push @zips, Szip; 
} 


} 
对 NG 有 兴趣 的 读者 请 参考 132 页 的 补充 内 容 ， 尽 管 本 书写 作 时 
只 能 举 Perl 的 例子 。 


解析 CSV 文 件 


Parsing CSV Files 

解析 CSV GES AI) 文件 有 点 麻烦 ， 因 为 每 个 程序 都 有 自己 
的 CSV 文 件 格 式 。 首 移 来 看 如 何 解析 Microsoft Excel 生 成 的 CSV 文 件 ， 
然后 再 看 其 他 格式 〈 注 3) 。 笠 运 的 是 ，Microsoft 的 格式 是 最 简单 的 。 
以 逗号 分 隔 的 值 要 么 是 “纯粹 的 ”( 仅 仅 包含 在 括号 之 前 ) ， 要 么 是 在 
双 引 号 之 间 〈 这 时 数据 中 的 双 引 号 以 一 对 双 引 号 表示 ) 。 

下 面 是 个 例子 : 


Ten Thousand, 10000, 2710, , "10, 000", "It's " " 10 Grand 
”"”，baby ”，10K 这 一 行 包含 七 个 字段 (fields) : 
Ten*Thousand 
10000 
*2710° 
空 字段 
10,000 
Di s*"109*Grand”, ‘baby 
10K 


为 了 从 此 行 解 析出 各 个 字段 ， 我 们 的 正则 表达 式 需 要 能 够 处 理 两 
种 格式 。 非 引号 格式 包含 引号 和 逗号 之 外 的 任何 字符 ， 可 以 用 TIA 
", J+ 匹配 。 

双 引 号 字段 可 以 包 仿 逗号、 空格， 以 及 双 引 号 之 外 的 任何 字符 - 
还 可 以 包含 连 在 一 起 的 两 个 双 引 号 。 所 以 ， 双 引号 字段 可 以 由 '"... 
"| ZERRA A" "| 匹配 ， 也 就 是 '" (?: py" ") 
类 ”| (为 效率 考虑 ， 我 们 可 以 使 用 固化 分 组 (? >...) ， 来 替代 
' (? : .…) ，， 不 过 这 个 话题 留 到 下 一 章 259) 
RARR, TM", JH" o: [A"]" ") 淡 "| 能 够 匹配 一 个 字 
。 这 可 能 有 点 难看 懂 ， 下 面 我 们 给 出 宽松 排列 (111) 格式 : 


EX 


# 引号 和 过 号 之 外 的 文本 . . . 
# 1. RAR... 

| 

i 


. .. 双 引号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) 
" # 起 始 双 引号 
(A | ae oe 
"+ 结束 双 引 号 
现在 这 个 表达 式 可 以 实际 应 用 到 包含 CSV 文 本 行 的 字符 串 上 了 ， 
但 如 果 我 们 希望 真正 利用 匹配 结果 ， 束 应 该 知道 具体 是 哪个 多 选 分 支 
匹配 了 。 如 果 是 双 3 引 号 字符 串 ， 就 需要 去 挥 首 尾 两 端的 双 3 引 号 ， 把 其 
中 紧 挨 着 的 两 个 双 3 引 号 蔡 换 为 单个 双 3 引 号。 


我 能 想到 的 办 法 有 两 个 。 其 一 是 检查 匹配 结果 的 第 一 个 字符 是 否 
双 引 号 ， 如 果 是 ， 则 去 掉 第 一 个 和 最 后 一 个 字符 〈 双 引号 ) ， 然 后 把 
REA" ?替换 为 ”’。 这 办 法 够 简 单 ， 但 如 果 使 用 捕获 型 括号 会 
人 简单。 如 果 我 们 给 捕获 字段 的 每 个 子 表达 式 添 加 捕获 型 括号 ， 可 以 在 
匹配 之 后 检查 各 个 分 组 的 值 : 

# 引号 和 过 号 之 外 的 文本 . . . 

二 

f 1... RBH... 
| 

# ... 双 引号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) 
# 起 始 双 引号 

eh Oe 

# 结束 双 引 号 

如 果 是 第 一 个 分 组 捕获 ， 则 不 需要 进行 任何 处 理 ， 如 果 是 第 二 个 
分 组 ， 则 只 需要 把 ‘"" ; 蔡 换 为 ‘" ; 即 可 。 

下 面 给 出 Perl 的 程序 ， 稍 后 〈 找 出 某 些 bug 之 后 ) 给 出 Java 和 
VB.NET (在 第 10 章 给 出 PHP 的 程序 480) 。 下 面 是 Perl 程序 ， 假 设 
数据 位 于 $line 中 ， 而 且 已 经 去 掉 了 结尾 的 换行 符 (换行 符 不 属于 最 后 
的 字段 ! ) : 


while (Sline =~ m{ 
# 引号 和 喜 号 之 外 的 文本 . . . 
ere } 
É csoka Ea 
| 
# ... 双 引号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) 
" # 起 始 双 引号 


}gx) 


if (defined $1) { 
Sfield = $1; 


} else { 
Sfield.= $2; 
$field =~ s/""/"/g; 


} 

print "(S$field]"; # 输出 $Sfield 供 调 试 

现在 可 以 处 理 Sfield 了 ... 

} 

将 其 应 用 于 测试 数据 ， 结 果 为 : 

[Ten-Thousand][10000][-2710-][10,000][It's: " 10-Grand " ,-baby][10K] 

Armee, (EASE EE AS HLA Ze YB NS o WFR Ah 
理 $field" 是 将 字段 的 值 存 入 数组 ， 完 成 后 访问 数组 的 第 五 个 元 素 得 到 第 
五 个 字段 (“10, 000”) 。 这 显然 不 对 ， 因 为 数组 的 元 素 与 空 字段 不 对 
应 fo} 

想到 的 第 一 个 办 法 是 把 TA", J+ BOA TA", l*,, RAKE 
而 易 见 的 ， 但 它 正 确 吗 ? 

测试 一 下 ， 下 面 是 结果 : 

[Ten:Thousand][][10000][][:2710.]DDD[10,000]DDIIs " 10:Grand 
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哇 ， 现 在 出 来 了 一 堆 空 字段 ! TARERE, RIX AIE ° 
LG Xi 的 匹配 可 以 不 占用 任何 字符 。 如 果真 的 遇 到 空 字段 ， 确 实 
能 匹配 ， 那 么 考虑 第 一 个 字段 匹配 之 后 的 情况 呢 ， 此 时 正则 表达 式 从 


Ten'Thousand 10000… 开始 应 用 。 如 果 表 达 式 中 没有 元 素 可 以 匹配 
2S 〈 就 本 例 来 说 ) ， 就 会 发 生长 度 为 0 的 成 功 匹 配 。 实 际 上 ， 这 样 的 
匹配 可 能 有 无 穷 多 次 ， 因 为 正则 引 敬 可 能 在 同一 位 置 重复 这 样 的 匹 
配 ， 现 代 的 正则 引擎 会 强迫 进行 驱动 过 程 ， 所 以 同一 位 置 不 会 发 生 两 
次 长 度 为 0 的 匹配 〈E131) 。 所 以 每 个 有 效 匹 配 之 间 还 有 一 个 空 匹 
配 ， 在 每 个 引号 字段 之 前 会 多 出 一 个 空 匹配 (而 且 数 组 末尾 还 会 有 一 
个 空 匹配 ， 只 是 此 处 没有 列 出 来 ) 。 

分 解 驱动 过 程 

要 解决 问题 ， 我 们 就 不 能 依赖 传动 机 构 的 驱动 过 程 来 越过 逗号 
所 以 ， 我 们 需要 手工 来 控制 。 能 想到 的 办 法 有 两 个 : 

1. 手 工 匹 配 喜 号。 如 果 采 取 此 办 法 ， 需 要 把 逗号 作为 普通 字段 匹配 
的 一 部 分 ， 在 字符 串 中 “ 迈 步 (pace ourselves) ” 

2. 确 保 每 次 匹配 都 从 字段 能 够 开始 的 位 置 开 始 。 字 段 可 以 从 行 首 ， 
或 者 是 逗号 开始 。 

可 能 更 好 的 办 法 是 把 两 者 结合 起 来 。 从 第 一 种 办 法 (匹配 逗号 本 
身 ) 出 发 ， 只 需要 保证 逗号 出 现在 第 一 个 字段 之 外 的 所 有 字段 开头 。 
或 者 ， 保 证 逗号 出 现在 最 后 一 个 字段 之 外 的 所 有 字段 的 来 尾 。 可 以 在 
表达 式 前 面 添加 外 ，，， 或 者 后 面 添 加 外 ，，， 用 括号 控制 范围 。 

在 前 面 添 加 ， 就 得 到 |: 


# 引号 和 过 号 之 外 的 文本 .... 
( " 


ee... 

# 或 者 是 

| 

# ... 双 引 号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) 
# 起 始 双 引号 


( (?: [^1] | un )* ) 
# 结束 双 引 号 
) 


看 起 来 它 应 当 没 错 ， 但 实际 的 结 末 却 是 : 
[Ten.Thousand][10000]1[.2710.][]D[000][][baby][10K] 


而 我 们 期 望 的 是 : 
[Ten Thousand][10000][:-2710-][][10,000][It's:- " 10°Grand " ,-baby] 
[10K] 
问题 出 在 哪里 呢 ? 似乎 是 双 引 号 字段 没有 正确 处 理 ， 所 以 问题 出 
EEFE, WIS? 不 对 ， 问 题 在 前 面 。 或 许 176 页 的 告 诚 有 所 帮助 : 
如 果 多 个 多 选 分 支 能 够 在 同一 位 置 匹 配 ， 必 须 小 心地 排列 顺序 。 第 一 
个 多 选 分 支 '[^" ，] 炎 | 不 需要 匹配 任何 字符 就 能 成 功 ， 除 非 之 后 的 元 
系 强 过， 否则 第 二 个 多 选 分 文 不 会 获得 答 试 的 机 会 。 而 这 两 个 多 选 分 
文 之 后 没有 任何 元 素 ， 所 以 第 二 个 多 选 分 支 永 远 不 会 得 到 尝试 的 机 
会 ， 这 束 是 问题 所 在 ! 
哇 ， 现 在 我 们 已 经 找到 了 问题 所 在 。OK， 交 换 一 下 多 选 分 文 的 顺 
序 : 
要 于 
(?: # 或 者 是 匹配 双 引 号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) ... 
" # (起 始 双 引号 ) 
Cars (48) 站 ww 
" # (起 始 双 引号 ) 


| # ..。. 或 者 是 引号 和 过 号 之 外 的 文本 . . . 
【人 

对 了 ! 至 少 对 测试 数据 来 说 是 对 了 。 如 果 数 据 变 了 ， 还 是 这 样 
吗 ? 本 万 的 标题 是 “分 解 驱 动 过 程 >， 而 最 保险 的 办 法 丈 是 以 完整 测试 
作为 基础 的 思考 ， 故 可 以 用 NG) 来 确保 每 次 匹配 从 上 一 次 匹配 结束 的 
位 置 开始 。 考 虚 到 构建 和 应 用 正则 表达 式 的 过 程 ， 这 样 做 应 该 绝对 没 
问题 。 如 果 在 表达 式 开始 添加 \G，， 就 会 禁止 引擎 的 驱动 过 程 。 我 们 
希望 这 样 修改 不 会 出 问题 ， 但 是 结果 并 非 如 此 。 之 前 输出 

[Ten-Thousand][10000][-2710- ][][][000][][-baby][10K] 

的 正则 表达 式 添加 \G 之 后 ， 得 到 

[Ten-Thousand][10000][-2710-][][] 

如 果 起 初 没 看 明日 ， 这 样 看 会 更 明显 。 


CSV Processing in Java 


这 里 有 一 个 使 用 Sun 的 java.util. regex MA CSV 的 例子 。 这 段 程 序 着 眼 于 简洁 的 、 
更 有 效 的 版 本 一 一 第 8 章 (7401) 将 会 介绍 。 


import java.util.regex.*; 


String regex = // 把 双 引 号 字段 存 入 group(1), 4 FFAMGA group (2) 
"\W\G(?3*1,) \n"+ 
"(2s \n"+ 

站 要么 是 双 引 革 字 段 ，.。， \n"+ 

ae # Pitit \n"+ 

(Pe FOVR ee | AINT hee ) \n"+ 

# 字 稚 结束 双 引号 \n"4 

(E seo EZA ome \n"+ 

# 非 引 号 非 过 号 文本 ，,， \n"+ 

( [*N®) 7%) \n"+ 

\n"; 


W 
// 创建 使 用 上 面 正则 表达 式 的 matcher， 斩 时 不 指定 需要 应 用 的 文本 
Matcher mMain = Pattern.compile( regex, Pattern.COMMENTS) .matcher (""); 


/1 为 "% 创建 一 个 matcher， 暂 时 不 指定 需要 应 用 的 文本 


Matcher mQuote = Pattern.compile("\"\"") .matcher(""); 


// EGMR RSL. Fim RGR RETR 
mMain.reset( line); //F RRI line 中 的 CSV TH 
while ( mMain.find()) 
{ 
String field; 
if ( mMain.start(2) >= 0) 
field = mMain.group(2); // 非 引号 字段 ， 直 接 使 用 
else 
/1/ UNSER, ttika 
field = mQuote.reset (mMain.group(1)).replaceAll("\""); 
// RRR... 
System.out.println("Field [" + field + "]"); 


另 一 个 办 法 

丁 的 开头 提 到 有 两 种 办 法 正确 匹配 各 个 字段 。 之 二 是 确保 匹配 
只 能 在 容许 出 现 字 段 的 地 方 开 始 。 从 表面 上 看 ， 这 类 似 于 添加 
‘A, o ARRAT WRAL! (2 <=, ) j” 

PEE, ARRIE (133) 的 解释 ， 即 使 可 以 使 用 逆序 环 
视 ， 也 不 见得 能 够 使 用 变 长 的 逆序 环视 ， 所 以 此 方法 可 能 无 法 使 用 。 
如 果 问 题 在 于 长 度 可 变 ， 我 们 可 以 把 ”(? <= 和 |，) | 替换 为 ”(? : 
A \? <=, )) ，， 但 是 相 比 第 一 种 办 法 ， 它 太 麻 烦 了 。 而 且 ， 它 仍 
然 依赖 传动 装置 的 驱动 过 程 来 越过 逗号 ， 如 果 别 的 地 方 出 了 什么 差 
错 ， 它 会 容许 在 和 ...”10，000”.. 2 处 的 匹配 。 总 的 来 说 就 是 ， 不 如 第 
一 种 办 法 保险 。 

不 过 我 们 可 以 略 施 小 计 要 求 匹 配 在 逗号 之 前 (或 者 是 一 行 结 
束 之 前 ) 结束 。 在 表达 式 结尾 添加 ' (? =$, ) ， 可 以 确保 它 不 会 进行 
错误 的 匹配 。 实 际 生 活 中 ， 我 会 这 样 做 吗 ? 直率 地 说 我 觉得 第 一 种 方 
法 很 合用 ， 所 以 遇 到 这 种 情况 我 可 能 不 会 采取 第 二 种 办 法 ， 不 过 如 采 
需要 ， 这 技巧 却 是 很 有 用 的 。 

进一步 提高 效率 

尽管 在 下 一 章 之 前 都 不 会 谈论 效率 ， 但 对 于 文 持 固 化 分 组 《GE 
139) 的 系统 ， 我 还 是 愿意 在 这 里 给 出 提高 效率 的 修改 : 把 匹配 双 引 号 
FRM F RAM Pe AY" ") &) BAT (? SpA" ") 
大 |。 下 一 页 用 VB.NET 的 例子 做 了 说 明 。 

如 果 像 Sun 的 Java regex package 那 样 支持 占有 优先 量词 (142) , 
也 可 以 使 用 占有 优先 量词 。Java CSV 程 序 的 补充 内 容 说 明了 这 一 点 。 

这 些 修 改 背 后 的 道理 会 在 下 一 章 讲解 ， 最 终 我 们 会 在 271 页 给 出 效 
率 最 高 的 办 法 。 

其 他 CSV 格 式 

Micorsoft 的 CSV 格 式 很 流行 ， 因 为 它 是 Microsoft 的 CSV 格 式 ， 但 其 
他 程序 可 能 有 不 同 格式 ， 我 见 过 的 情况 还 有 : 

e 使 用 任意 字符 ， 例 如 '; ' 或 者 制 表 符 作为 分 隔 。 (不 过 这 样 名 字 
还 能 叫 “ 逗 号 分 隔 值 ”* 吗 ? ) 


e 容 许 分 隔 符 之 后 出 现 空 格 ， 但 不 把 它们 作为 值 的 一 部 分 。 

e 用 反 斜 线 转 义 引 号 (例如 用 ^" ;而 不 是 '"”"* 类 表示 值 内 部 的 引 
5) 。 通 常 这 意味 着 反 斜 线 可 以 在 任何 字符 前 出 现 (FAR) 。 

这 些 变化 都 很 容易 处 理 。 第 一 种 情况 只 需要 把 辟 号 蔡 换 为 对 应 的 
分 隔 符 ， 第 二 种 只 需要 在 第 一 个 分 隔 符 之 后 添加 \s 兴 ，， 例 如 以 
UA NL NG) 4 FP 

第 三 种 情况 ， 我 们 可 以 用 之 前 的 办 法 (198) , TPA HY" 
替换 为 ' [AN " ]+N\.，。 当 然 ， 我 们 必须 把 后 面 的 /" “ /“" /g 改 为 更 通用 
的 SN (.) /$1/g， 或 者 对 应 语言 中 的 代码 。 


VB.NET py CSV 处 理 


Imports System. Text.RegularExpressions 


Dim FieldRegex as Regex = New Regex( _ 
PLZEN BP 
WP 
(?# 要 么 是 双 引 号 字段 ...) 
ww (28 字段 起 始 双 引 号 ) 
{ {?> paws Tt | nue )* ) 
"n (24 字段 结 束 双 引号 ) 
(sep, wun) 
| 
(2# ,。。 非 引号 非 这 号 文本 ，..) 
( Aoba 
")", RegexOptions. IgnorePatternWhitespace) 
Dim QuotesRegex as Regex = New Regex(" "" "™ ") ' 双 引 号 字符 事 


RY eo RY RY RY RY RY RY RR 


Dim FieldMatch as Match = FieldRegex.Match (Line) 
While FieldMatch.Success 
Dim Field as String 
If FieldMatch.Groups (1) .Success 
Field = QuotesRegex.Replace(FieldMatch.Groups(1).Value, """") 
Else 
Field = FieldMatch.Groups (2) .Value 
End If 


Console.WriteLine("(" & Field & ")") 
' 现在 可 以 处 理 'Eield' 


FieldMatch = FieldMatch.NextMatch 
End While 


第 6 章 打造 高 效 正 则 表达 式 


Crafting an Efficient Expression 

Perl、Java、.NET、Python 和 PHP (这 里 没有 列 全 ， 其 他 语言 请 参 
考 第 145 页 的 表格 ) 使 用 的 都 是 表达 式 主 导 的 NFA3 引 | 警 ， 细 微 的 改变 就 
可 能 对 匹配 的 结 采 及 方式 产生 重大 的 影响 。 DFA 中 不 存在 的 问题 ， 对 
NEFA 来 说 却 很 重要 。 因 为 NFA 引 擎 容许 用 户 进行 精确 控制 ， 所 以 我 们 
可 以 用 心 打 造 〈“ 译 注 1) 正则 表达 式 ， 但 对 不 熟悉 的 人 来 说 ， 这 样 可 能 
会 市 来 麻烦 。 本 章 讲解 的 丈 是 调 校正 则 表达 式 的 诀窍 。 

调 校 表 达 式 时 需要 考虑 的 两 个 因素 是 准确 性 和 效率 : 精确 匹配 我 
们 需要 的 文本 ， 不 包含 多 余 的 内 容 ， 而 且 速 度 要 快 。 第 4 章 和 第 5 章 探 
讨 了 谁 确 性 ， 现 在 我 们 来 考察 NFA 引 警 的 效率 ， 以 及 如 何 有 效 地 利用 
这 些 知识 (我 们 会 在 合适 的 时 候 提 到 DFA 的 问题 ， 不 过 本 章 主要 关注 
的 还 是 基于 NFA 的 引擎 ) 。 总 的 来 说 ， 关 键 在 于 彻底 理解 回溯 背后 的 
过 程 ， 学 习 些 技巧 来 避免 可 能 的 回溯 。 在 深入 了 解 了 处 理 机 制 的 细 贡 
之 后 ， 读 者 不 但 能 够 把 匹配 的 速度 提 到 最 高 ， 写 更 复杂 的 正则 表达 式 
时 也 会 更 有 信心 。 

本 章 内 容 

为 了 让 读者 彻底 掌握 这 些 知 识 ， 本 章 首 移 说 明了 效率 的 重要 性 ， 
然后 回顾 前 几 章 讲解 过 的 回溯 ， 重 点 强调 效率 和 回溯 对 整个 匹配 的 影 
啊 ， 为 掌握 高 级 的 技巧 做 准备 。 然 后 我 们 会 考察 一 些 常见 的 内 部 优化 
措施 ， 它 们 可 能 对 效率 有 相当 程度 的 实质 性 影响 ， 还 要 讲解 ， 针 对 具 
体 实 现 方 式 ， 如 何 构建 最 合适 的 正则 表达 式 。 最 后 ， 我 会 做 个 总 结 ， 
传授 一 些 终极 技巧 ， 来 构建 快 如 雷霆 的 NFA 表 达 式 。 

测试 与 回溯 

我 们 将 看 到 的 例子 代表 了 使 用 正则 表达 式 时 经 常 遇 到 的 情况 。 在 
分 析 某 个 的 正则 表达 式 的 效率 时 ， 我 有 时 会 列 出 正则 引擎 在 匹配 过 程 
中 进行 的 独立 测试 (individual test) 的 次 数 。 A 7 Fa IE SU 8 3 
| marty , Ea 一 共 会 进行 6 次 独立 测试 ， 首 先是 bm, 对 s (2 
配 失败 ) ， 然 后 是 rm 对 m， ra 对 a， 依 次 继续 。 我 通常 会 给 出 回 淹 


的 次 数 〈 本 例 中 回溯 次 数 为 0， 不 过 ， 正 则 引擎 的 传动 装置 必然 会 在 第 
二 个 字符 处 重 试 正 则 表达 式 ， 这 或 许可 以 算 作 一 次 回溯 ) 

之 所 以 要 列 出 这 些 数字 ， 并 不 是 为 表明 精确 性 ， 而 是 因为 它们 
比 “ 许 多 ”、“ 人 少量 *、“ 多 次 ”、“ 更 好 ”*”、“ 不 太 多 ”之 类 更 为 准确 。 我 的 意 
思 不 是 说 ， 在 NEA 上 使 用 正则 表达 式 需 要 精确 地 考察 测试 和 回溯 的 次 
数 ， 我 只 是 希望 让 读者 知道 这 些 例子 的 相对 优 劣 。 

另 一 个 重要 的 问题 是 ， 你 必须 意识 到 这 些 “ 精 确 ” 的 数字 可 能 根据 
工具 的 不 同 而 有 所 不 同 。 我 期 望 读者 能 够 知道 ， 它 只 是 针对 具体 例子 
的 、 相 对 的 粗略 表现 。 不 同 工 具 之 间 的 一 个 重要 区 别 就 是 ， 它 们 可 能 
使 用 的 优化 措施 不 同 。 如 果 能 够 预先 判断 目标 字符 串 基本 无 法 匹配 
(例如 目标 字符 串 缺 少 一 个 引 敬 能够 预知 的 ， 匹 配 成 功 必须 的 字 
AF) ， 足 够 聪明 的 实现 方式 可 以 完全 不 应 用 正则 表达 式 。 我 在 本 章 讨 
论 了 这 些 重要 的 优化 措施 ， 不 过 普遍 原理 比 具体 问题 更 为 重要 。 

传统 型 NFA 还 是 POSIX NEA 

在 分 析 效 率 时 ， 一 定 不 要 忘记 所 使 用 工具 的 引擎 类 型 : 传统 型 
NFA 还 是 POSIX NFA。 下 一 节 中 我 们 会 看 到 ， 有 些 问题 只 对 某 种 引擎 
存在 。 有 的 改变 可 能 对 其 中 之 一 没有 影响 ， 对 另 一 个 却 有 极 大 的 影 
啊 。 还 是 那 句 话 ， 理 解 基 本 原理 ， 就 能 应 付 各 种 情况 。 


典型 示例 


A Sobering Example 

HARE- PIE PREIS BR PER IE e FELOBTL, R 
们 用 ” AAD 多 ”| 来 匹配 引号 字符 串 ， 其 中 容许 出 现 转 义 的 
双 引 号 。 这 个 表达 式 没 有 错 ， 但 如 果 我 们 使 用 NFA3 引 | 警 ， 对 每 个 字符 
都 应 用 多 选 结构 的 效率 就 会 很 低 。 对 字符 串 中 每 个 “正常 ”( 非 转 义 、 
非 引 用 ) 的 字符 来 说 ， 这 个 引擎 需 要 测试 \\,.，， 遇 到 失败 后 回 滴 ， 最 
终 由 TTA" ] | 匹配 。 如 果 效 率 不 容 忽 视 ， 就 应 该 做 些 改动 来 加 快 匹 配 
速度 。 


稍 加 修改 一 一 先 迈 最 好 使 的 腿 


A Simple Change—Placing Your Best Foot Forward 

对 于 一 般 的 双 引 号 字符 串 来 说 ， 普 通 字 符 的 数量 比 转 义 字符 要 
多 ,一 个 简单 的 改动 就 是 调换 两 个 多 选 分 支 的 顺序 ， 把 [AN " ] | 放 到 
AN 之前。 这 样 ， 只 有 在 遇 到 字符 串 中 的 转 义 字符 时 才 会 按照 多 选 结 
构 进 行 回 滴 《还 有 一 次 回潮 是 星 号 无 法 匹配 引起 的 ， 此 时 所 有 的 多 选 
分 文 都 匹配 失败 ， 所 以 整个 多 选 结 构 无 法 匹配 ) 。 图 6-1 说 明了 其 中 的 
差异 。 箭 头 数 量 的 减少 ， 说 明 第 一 个 多 选 分 文 的 成 功 匹 配 次 数 增加 
T, Heme UK T° 


正则 表达 式 义 字 字符 束 


(ET likeness" 


4444444444 


"(NNN | VN) S ETT 


f 多 选 结构 回溯 发 生 的 位 置 


图 6-1: 多 选 分 文 排列 顺序 的 影响 (传统 型 NFA) 

请 从 下 面 几 个 方面 评价 这 个 修改 : 

e 哪 种 引擎 从 中 获 益 ? 传统 型 NFA， 或 者 POSIX NFA， 或 是 两 者 ? 

e 什 么 情况 下 ， 这 种 修改 这 来 的 收益 最 大 ? 在 文本 能 够 匹配 时 ， 无 
法 匹配 时 ， 还 是 所 有 时 候 。 

o 请 思考 这 些 问 题 ， 翻 到 下 一 页 查看 答案 。 在 阅读 下 一 入 以 前 ， 
务必 理解 答案 (及 原因 ) 。 


效率 vs 准确 性 


Efficiency Versus Correctness 
为 提高 效率 修改 正则 表达 式 时 最 需要 考虑 的 问题 是 ， 改 动 是 否 会 
影响 匹配 的 准确 性 。 像 上 面 那样 重新 安排 多 选 分 文 的 顺序 ， 只 有 在 排 
序 与 匹配 成 功 无 关 时 才 不 会 影响 准确 性 。 前 一 章 出 现 的 '"” 《NI[A 
"D 大 ”| (197) 的 例子 是 有 缺陷 的 。 如 果 正 则 表达 式 只 需要 
(should) 应 用 于 格式 正确 的 字符 串 ， 此 问题 永远 也 不 会 骏 露 出 来 。 如 
果 认 为 这 个 表达 式 很 不 错 ， 改 动 的 确 提 高 了 效率 ， 我 们 束 会 遇 到 真正 
的 问题 。 交 换 多 选 分 支 ， 把 '[^" |, 放 在 前 面 ， 避 免 表 达 式 进行 不 正确 
的 匹配 ， 如 果 目 标 字 符 串 包含 一 个 转 义 的 双 3 引 号 : 


稍 加 改动 的 效果 


© 223 页 问题 的 答案 

哪 种 引 欧 从 中 获 益 ?这 种 改动 对 POSIX NFA 没有 影响 .因为 它 最 终 必须 尝试 正则 表达 
式 的 每 一 种 可 能 ， 多 选 分 支 的 顺序 其 实 不 重要 ,不 过 ， 对 传统 型 NFA 来 说 ， 这 样 提 高 
速度 的 多 选 分 支 重 排序 是 有 利 的 ， 因 为 引 学 一 旦 找到 匹配 结果 就 会 停 下 来 ， 

什么 样 的 情况 下 会 有 效果 ?只 有 匹配 成 功 时 才 会 加 快速 度 , 只 有 在 党 试 所 有 的 可 能 (再 
说 一 次 ，POSIX NFA 任何 情况 下 都 会 党 试 所 有 可 能 ) 之 后 ，NFA 才 可 能 失败 。 所 以 如 
果 确 实 不 能 匹配 ， 每 种 可 能 都 会 被 党 试 ， 所 以 排列 顺序 没有 影响 ， 

下 表 列 出 了 若干 种 情况 下 所 进行 的 测试 和 回溯 的 次 教 (数字 越 小 越 好 )， 


"2\"x3\" likeness" |32 


"makudonarudo" 


[TI 
目标 字符 串 HAN. AVM) (IAA AN) Re A 
测试 Bh Wt oh mit 回 济 
14 22 4 48 30 
28 14 16 2 40 % 


"very: 99 more chars 
slong" 


vv Ro Tr el Re 
我 们 发 现 ， 两 个 表达 式 在 POSIX NFA 中 的 情况 是 一 样 的 ， 而 修改 之 后 ， 传 统 型 NFA 
的 表现 提升 了 (减少 了 回溯 )。 而 在 不 能 匹配 的 情况 下 (最 后 一 行 ) ， 因 为 两 种 引擎 必 
MERAH THE, RAR HG, 


"You need a 2\"3\" photo." 
所 以 ， 在 关注 效率 的 时 候 ， 万 不 可 走 记 准确 性 。 
继续 前 进 一 一 限制 匹配 优先 的 作用 范围 


Advancing Further—Localizing the Greediness 


从 图 6-1 可 以 看 出 ， 在 任意 正则 表达 式 中 ， 星 号 会 对 每 个 普通 字符 
进行 迭代 (或 者 说 “重复 ”) ， 重复 进入 -退出 多 选 结构 (和 括号 ) 。 这 
需要 成 本 ， 也 束 是 额外 的 处 理 一 一 如 果 可 能 ， 我 们 必须 避免 这 些 额外 
处 理 。 

有 一 次 ， 在 处 理 这 类 正则 表达 式 时 ， 我 想到 一 个 优化 的 办 法 ， 考 
虑 到 [AN " 有 匹配 “普通 ”( 非 引号 ， 非 反 斜 线 ) 的 情况 ， 使 用 
TA" +) 会 在 【〔...) 尖 的 一 次 迭代 中 读 入 尽 可 能 多 的 字符 。 对 没有 转 
义 字 符 的 字符 下来 说 这 样 会 一 次 读 入 整个 字符 串 。 于 是 就 几乎 不 会 
进行 回溯 ， 也 就 把 星 号 迭代 的 次 数 减 少 到 最 小 。 我 很 为 自己 的 发 现 而 


高 兴 。 


我 们 会 在 本 章 更 深入 地 考察 这 个 例子 ， 不 过 看 一 眼 统计 数据 会 清 
楚 地 发 现 好 处 。 图 6-2 展 示 了 传统 型 NFA 上 应 用 这 个 例子 的 情况 。 比 较 
原来 的 '"” OP") x") (上 面 的 两 个 表达 式 ) ， 与 多 选 结构 相 
天 的 回溯 和 星 号 友 代 都 减少 了 。 下 面 的 两 个 例子 说 明 ， 结 合 之 前 的 重 
排序 技巧 ， 这 种 修改 会 带 来 更 多 的 收益 。 


正则 表达 式 义 字 字符 串 
(| Ce) +", "2 故国 likeness" 


(| CANN TH) *, 2 Likeness 


Ii | NN) * " emen 


7 ma, PT es 


f 3 


/多 选 结构 回溯 发 生 的 位 置 


图 6-2: 添加 加 号 的 结果 (传统 型 NFA) 

新 增 的 加 号 大 大 减少 了 多 选 结构 回溯 的 次 数 ， 以 及 星 号 的 迭代 次 
数 。 星 号 量词 作用 于 括号 内 的 子 表达 式 ， 每 次 迭 代 都 需要 进入 然后 再 
退出 括号 ， 这 都 需要 成 本 ， 因 为 引擎 需要 记录 括号 内 的 子 表 达 式 匹配 
的 文本 (本 章 会 深入 探讨 此 问题 ) 

表 6-1 与 第 224 页 答案 中 的 表格 类 似 ， 不 过 表达 式 不 同 ， 另 外 还 给 出 
了 星 号 的 迭代 次 数 。 在 每 种 情况 下 ， 独 立 测试 次 数 和 回溯 次 数 的 增加 


都 很 有 限 ， 但 是 迭代 次 数 有 了 显著 降低 ， 这 是 很 大 的 进步 。 
表 6-1: 传统 型 NFA 的 匹配 效率 
fm ( [AN IAN) xn CANA AIAN) 


实测 


Reality Check 

是 的 ， 我 对 自己 的 发 现 颇 为 得 意 。 但 这 个 看 起 来 很 奇妙 的 “ 改 
动 ” 不 过 是 场 还 未 爆发 的 灾难 。 你 可 能 注意 到 了 ， 在 考察 它 的 各 项 指标 
时 ， 我 没有 给 出 POSIX NFA 的 统计 数据 。 如 果 这 样 做 ， 你 可 能 会 很 惊 
AWEH" very- slong" 的 匹配 需要 超过 3 亿 亿 亿 次 (实际 上 是 
324 518 553 658 426 726 783 156 020 576 256) 回溯 。 说 简单 点 就 是 ， 
回溯 是 个 天 文 数 字 。 这 需要 超过 50 百 亿 亿 (quintillion) F, REEE 
FFAG FE ( 注 1) + 

确实 很 出 乎 意料 ! 那么 ， 为 什么 会 发 生 这 种 情况 呢 ? 简单 地 说 ， 
原因 在 于 一 一 这 个 正则 表达 式 中 某 个 元 素 受 加 号 限定 的 同时 ， 还 受 括 
号 外 的 星 号 限定 ， 无 法 区 分 哪个 量词 控制 哪个 特殊 的 字符 。 这 种 不 确 
定性 就 是 症结 。 下 一 节 给 出 了 详细 解释 。 

“指数 级 ”匹配 


没有 添加 星 号 时 ， (A "], 是 星 号 的 约束 对 象 ， 真 正 的 
| (N'D x 能 够 匹配 的 字符 是 有 限 的 。 它 先 匹配 一 个 字符 ， 然 后 
匹配 下 一 个 字符 ， 如 此 继续 ， 最 多 就 是 匹配 目标 文本 中 的 每 个 字符 。 
它 也 可 能 无 法 匹配 目标 字符 串 中 的 所 有 字符 ， 不 过 ， 充 其 量 ， 匹 配 字 
符 的 个 数 与 目标 字符 串 的 长 度 成 线性 关系 。 目 标 字符 串 越 长 ， 可 能 的 
工作 量 相 对 也 越 大 。 

但 是 ， 对 正则 表达 式 的 ”〈[AN\"]+) 淡 来 说 ， 加 号 和 星 号 二 者 分 
割 (divvy up) 字符 串 的 可 能 性 是 成 指数 形式 增长 的 。 如 果 目 标 字符 串 
是 makudonarudo， 是 星 号 会 迭代 12 次 ， 每 一 次 迭代 中 A" +, 匹配 
一 个 字符 (MAX “makudonarudo’) ? 还 是 星 号 迭代 3 次 ， 内 部 的 
HA" J+, 分 别 匹配 5、3、4 个 字符 (“makugenarud9”) ? 或 者 2、 
2、5、3 个 字符 (“ makyaonasu99 ') ? 还 是 其 他 .…… 


你 现在 知道 ， 存 在 许多 种 可 能 〈 对 长 度 为 12 的 字符 串 存 在 4 096 种 
可 能 ) 。 字 符 串 中 的 每 个 字符 ， 都 存在 两 种 可 能 ，POSIX NFA 在 给 出 
结果 之 前 必须 演 试 所 有 可 能 。 这 丈 是 “指数 级 匹配 ?的 来 历 。 我 还 听 说 
过 一 个 不 错 的 名 字 : “ 超 线性 (super-linear) ”。 

无 论 叫 什么 名 字 ， 终 归 都 是 回溯 ， 大 量 的 回溯 〈 注 2) ! 12 个 字符 
需要 4 096 种 可 能 ， 这 可 能 不 需要 多 久 时 间 ， 不 过 20 个 字符 需要 超过 一 
百 万 种 可 能 ， 时 间 长 达 若 干 秒 。30 个 字符 ， 束 需要 超过 十 亿 种 可 能 ， 
长 达 若 干 小 时 ， 如 果 是 40 个 字符 ， 就 需要 一 年 多 的 上 时间。 这 显然 不 是 
什么 好 事情 。 

你 可 能 会 想 ,“ 没 关系，POSIX NFA 并 不 常见 。 我 知道 我 的 工具 用 
的 是 传统 型 NFA， 所 以 这 问题 对 我 不 存在 。” 的 确 ，POSIX NFA 和 传统 
型 NFA 的 主要 差别 在 于 ， 传 统 型 NFA 在 遇 到 第 一 个 完整 匹配 可 能 时 会 停 
止 。 如 果 没 有 完整 匹配 ， 即 使 是 传统 型 NFA 也 需要 尝试 所 有 的 可 能 ， 
在 找到 之 前 。 即 使 是 前 面 提 到 的 ”No"\”match\ " -here 这样 短 短 的 字符 
串 ， 在 报告 失败 之 前 ， 也 需要 尝试 8 192 种 可 能 。 

在 正则 引擎 从 于 答 试 这 些 数量 庞大 的 可 能 时 ， 整 个 程序 看 起 来 好 
像 “ 锁 死 (lock up) ”了 。 我 第 一 次 遇 到 这 种 情况 时 ， 以 为 自己 发 现 了 程 


序 的 bug， 不 过 现在 我 理解 了 ， 现 在 我 把 这 个 正则 表达 式 加 入 自己 的 正 
则 表达 式 工 具 包 里 ， 用 来 测试 引擎 的 类 型 。 

e 如 有 果 其 中 的 某 个 表达 式 ， 即 使 不 能 匹配 ， 也 能 很 快 给 出 结果 ， 那 
可 能 束 是 DFA ° 

e 如 采 只 有 在 能 够 匹配 时 才 很 快 出 结果 ， 那 就 是 传统 型 NFA 。 

e 如 条 总 是 很 慢 ， 那 承 是 POSIX NFA ° 

第 一 个 判断 中 我 使 用 了 “可 能 ”这 个 单词 ， 因 为 经 过 高 级 优化 的 NFA 
没准 能 检测 并 且 避 免 这 些 指数 级 的 无 休止 (neverending) 匹配 ( 详 见 
ANG M250) 。 同 样 ， 我 们 会 见 到 各 种 方法 来 改进 或 重 写 这 些 表达 
式 ， 加 快 它们 匹配 或 报错 的 速度 。 

前 面 列 出 的 几 点 表明 ， 如 果 排 除 某 些 高 级 优化 的 影响 ， 束 能 根据 
正则 表达 式 的 相对 性 能 判断 引 敬 的 类 型 。 这 就 是 第 4 章 中 (146) 我 
们 能 用 某 些 正则 表达 式 来 “测试 引 敬 的 类 型 ”的 原因 。 

当然 ， 不 是 每 点 改动 都 会 带 来 像 本 例 一 样 的 灾难 性 后 果 ， 不 过 除 
非 知 道 正 则 表达 式 的 幕后 原理 ， 否 则 在 实际 运行 之 前 永远 不 能 判断 后 
果 。 为 此 ， 本 章 考 察 了 各 种 例子 的 效率 和 后 果 。 不 过 ， 对 许多 事 来 
说 ， 牢 固 理 解 基 本 概念 对 深入 学 习 是 非常 重要 的 ; 所 以 ， 在 讲解 指数 
级 匹配 之 前 ， 我 们 不 妨 仔细 复习 复习 回溯 。 
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A Global View of Backtracking 

从 局 部 来 看 ， 回 济 就 是 倒退 至 未 尝试 的 分 支 。 这 很 容易 理解 ， 但 
是 回调 对 整个 匹配 影响 并 不 容易 理解 。 在 本 下 ， 我 们 会 详细 考察 回 淹 
在 匹配 成 功 和 不 成 功 时 的 各 种 细节 ， 党 试 从 中 发 据 出 一 些 东 西 。 

先 来 仔细 看 看 前 一 章 的 几 个 例子 ， 在 165 页 ， 我 们 把 '" «| my 
用 到 下 面 的 文本 : 

The name " McDonald's " is said " makudonarudo " in Japanese 

匹配 过 程 如 图 6-3 所 示 。 

正则 表达 式 会 从 字符 串 的 起 始 位 置 开始 依次 尝试 每 个 字符 ， 但 是 
因为 开头 的 引号 无 法 匹配 ， 此 后 的 字符 也 不 能 匹配 ， 直 到 壬 试 进行 到 
标记 位 置 A。 接 着 尝试 表达 式 的 其 他 部 分 ， 但 是 传动 装置 (148) 知 
道 如 采 这 种 符 试 不 成 功 ， 整 个 表达 式 可 以 从 下 一 个 位 置 开 始 莹 试 。 

然后 .类 |， 匹配 直到 字符 串 末 尾 ， 此 时 点 号 无 法 匹配 ， 所 以 星 号 停 
IRAR o AA lk 匹配 成 功 可 以 不 需要 任何 字符 ， 所 以 在 此 过 程 中 引 
擎 记录 了 46 个 状态 供 回 溯 。 现 在 .类 ,停止 了 ， 引 擎 从 最 后 保存 的 状态 
FIREM, Æ anise,“ 处 开始 尝试 ".*,"!。 

也 就是 说 ， 我 们 在 字符 串 的 末尾 尝试 匹 配 表 示 结 束 的 双 引 号 。 不 
过 ， 在 这 里 双 引 号 同样 无 法 匹配 ， 所 以 演 试 仍然 失败 。 然 后 引擎 继续 
EW RIN, REEI ° 
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一 ”正则 表达 式 元 素 成 功 区 配 的 文本 


仅 针对 POSIX NFA 


图 6-3:，【“" . 淡 ”| 的 成 功 匹配 过 程 
引擎 倒 过 来 尝试 (最 后 保存 的 状态 排 在 最 先 ) 从 A 到 B 保 存 的 状 
仿 ， 下 先是 从 B 到 C。 在 进行 了 多 次 笑 试 之 后 到 达 这 个 状态 ， 正则 表达 
式 中 的 ".*." 对 应 字符 串 中 的 …arudo,".in-Japa...， 也 就 是 C 所 标注 的 
位 置 。 此 时 匹配 成 功 ， 于 是 我 们 在 D 位 置 得 到 全 局 匹配 。 
The name "McDonald’s" is said "Makudonarudo", in Japanese 
这 束 是 传统 型 NFA 的 匹配 过 程 ， 剩 下 的 未 使 用 状态 将 被 抛弃 ， 报 
告 匹 配 成 功 。 


POSIX NFA 需 要 更 多 处 理 


More Work for a POSIX NFA 

我 们 已 经 介绍 过 ，POSIX NFA 的 匹配 是 “到 目前 为 止 最 长 的 匹 
配 ”"， 但 是 仍然 需要 尝试 所 有 保存 的 状态 ， 确 认 是 否 存在 更 长 的 匹配 。 
我 们 知道 ， 对 本 例 来 说 ， 第 一 次 找到 的 匹配 束 是 最 长 的 ， 但 正则 引擎 
需要 确认 这 一 点 。 


所 以 ， 在 保存 的 所 有 状态 中 ， 除 了 两 个 能 够 匹配 双 引 号 的 可 能 


似 B-C-D， 只 是 F 和 H 会 被 放弃 ， 因 为 它们 匹配 的 文本 比 D 的 要 短 。 

在 I 位 置 能 进行 的 回溯 是 “启动 驱动 过 程 ， 进 行 下 一 轮 尝 试 (bump- 
along and retry) ”° 不 过 ， 因 为 从 A 位 置 开 始 的 尝试 能 够 找到 匹配 ( 实 
际 上 是 三 个 ) ，POSIX NFA 引 擎 最 终 停 下 来 ， 报 告 在 D 位 置 的 匹配 。 


无 法 匹配 时 必须 进行 的 工作 


Work Required During a Non-Match 

我 们 还 需要 分 析 无 法 匹配 时 的 情况 。 我 们 知道 " .类 "! | 无 法 匹 
配 范 例文 本 ， 但 是 它 在 匹配 过 程 中 仍然 会 进行 许多 工作 。 我 们 将 会 
到 ， 工 作 量 增 大 了 许多 。 

图 6-4 说 明了 这 些 。A-I 序 列 类 似 图 6-3。 区 别 在 于 ， 在 位 置 D 无 法 匹 
配 (因为 结尾 的 间 号 ) 。 男 一 点 区 别 在 于 ， 图 6-4 中 的 整个 尝试 序列 是 
传统 型 NFA 和 POSIX NEFA 都 必须 经 历 的 : 如 果 无 法 匹配 ， 传 统 型 NFA 
必须 进行 的 尝试 与 POSIX NFA 一 样 多 。 


uae fl > 尝试 并 匹配 失败 
下 则 表达 式 ,| Woww 
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一 一 w 正则 表达 式 元 素 成 功 匹配 的 文本 


The name "McDonald's" is said "makudonarudo" in Japanese 


Blea: "oe"! | 匹配 失败 的 经 过 

因为 从 开始 的 A 到 结束 的 I 的 所 有 尝试 都 不 存在 匹配 ， 传 动 装置 必 
须 启动 驱动 过 程 开始 新 一 轮 尝试 。 从 J、Q、V 开 始 的 尝试 看 来 有 可 能 
配 成 功 ， 但 结果 都 与 从 A 开始 的 尝 斌 一样。 最终 到 Y， 不 存在 继续 尝试 
的 途径 ， 所 以 整个 尝试 宣告 失败 。 如 图 6-4 所 示 ， 得 到 这 个 结果 花费 了 
许多 工夫 。 


看 清楚 一 点 


Being More Specific 

我 们 把 点 号 换 成 [^"] 来 做 个 比较 。 前 一 章 已 经 讨论 过 ， 这 样 的 
结果 更 容易 理解 ， 因 为 它 能 匹配 的 字符 更 少 ， 而 且 这 样 一 来 ， 正 则 表 
达 式 的 效率 也 提高 了 。 如 果 使 用 A" a" | TEA" oe, 匹配 的 
内 容 吏 不 能 包括 双 引 号 ， 诚 少 了 匹配 和 回溯 。 

图 6-5 说 明了 党 试 失败 的 过 程 (请 对 比 图 6-4) 。 从 图 中 可 以 看 到 ， 
回溯 的 次 数 大 大 减少 了 。 如 果 这 个 结果 满足 我 们 的 需要 ， 减 少 的 回 济 
就 是 有 益 的 伴随 效应 (side effect) 


正则 表达 式 [u Eie kodai | > ”尝试 并 匹配 失败 
eneee MISH, CRAM 


一 一 一 正则 表达 式 元 素 成 功 匹 配 的 文本 


The name "McDonald's" is said "makudonarudo" in Japanese 


Bes: ("A |e"! | 无 法 匹配 


多 选 结构 的 代价 很 高 


Alternation Can Be Expensive 


Z A a HPF 7 [TD E R R TA 。 举 个 简单 的 例子 ， 用 
makudonarudo 来 比较 Tujvjw|x|ylz， 和 ' [uvwxyz], 的 匹配 。 字 符 组 一 般 
只 是 进行 简单 测试 〈 注 3) ， 所 以 '[uvwxyz] 只 需要 进行 34 次 尝试 就 能 
匹配 。 


The name "McDonald's" is said "makudonarudo" in Japanese 


如 果 使 用 "ulvjwlx|ylz， ， 则 需要 在 每 个 位 置 进行 6 次 回溯 ， 在 得 到 
同样 结果 之 前 总 共有 204 次 回溯 。 当 然 ， 并 不 是 每 个 多 选 结 构 都 可 以 替 
换 为 字符 组 ， 即 使 可 以 ， 也 不 见得 会 这 么 简单 。 不 过 ， 在 某 些 情况 
下 ， 我 们 将 要 学 习 的 技巧 能 够 大 大 减少 与 匹配 所 须 的 多 选 结 构 相 关 的 
回溯 。 

理解 回溯 可 能 是 学 习 NFA 效 率 中 最 重要 的 问题 ， 但 所 有 的 问题 不 
只 于 此 。 正 则 引擎 的 优化 措施 能 够 大 大 提升 效率 。 在 本 章 后 面 ， 我 们 
将 详细 考察 正则 引擎 要 做 的 工作 和 优化 手段 。 


性 能 测试 


Benchmarking 

本 章 主要 讲解 速度 和 效率 ， 而 且 会 时 常 使 用 性 能 测试 ， 所 以 我 希 
望 介绍 一 些 测试 的 原则 。 我 会 用 几 种 语言 来 介绍 侧 单 的 测试 方法 。 

基本 的 性 能 测试 就 是 记录 程序 运行 的 时 间 : 先 取 系 统 时 间 ， 运 行 
程序 ， 再 取 系 统 时 间 ， 计 算 两 者 的 差 ， 就 是 程序 运行 的 时 间 。 举 个 例 
子 ， 比 较 和 (alblcldjelflg) +$; 和 A^[a-g]+$， 。 先 来 看 Pen 的 表现 ， 然 
后 再 来 看 其 他 语言 。 下 面 是 简单 的 Perl 程 序 (不 过 ， 我 们 将 会 看 到 ， 这 
PATER) : 


use Time::HiRes 'time'; # 这 样 time() 的 返回 值 更 加 精确 

SStartTime = time(); 

"abababdedfg" =~ m/*(alb|cidle|f£|g)+$/; 

SEndTime time(); 

printf ("Alternation takes %.3f seconds.\n", SEndTime - $StartTime) ; 


$StartTime = time(); 

"abababdedfg" =~ m/*[a-g]+$/; 

SEndTime = time(); 

printf("Character class takes %.3f seconds.\n", SEndTime - $StartTime); 


它 看 来 〈 而 且 也 确实 是 ) 很 
需要 记 住 几 点 : 

e 只 记录 “真正 关心 的 (interesting) ”处 理 时 间 。 尽 可 能 准确 地 记 
录 “ 处 理 * 时 间 ， 尽 可 能 避免 “ 非 处 理 时 间 ” 的 影响 。 如 果 在 开始 前 必须 进 
行 初始 化 或 其 他 准备 工作 ， 请 在 它们 完成 之 后 开始 计时 ， 如 果 需 要 收 
尾 工作 ， 请 在 计时 停止 之 后 进行 这 些 工作 。 

e 进 行 “足够 多 ”的 处 理 。 通 常 ， 测 试 需要 的 时 间 是 相当 短暂 的 ， 而 
计算 机 时 钟 的 单位 精度 不 够 ， 无 法 给 出 有 意义 的 数值 。 

在 我 的 机 器 上 运行 这 个 Perl 程 序 ， 结 果 是 : 


Alternation takes 0.000 seconds. 


人 简单， 但 是 在 进行 性 能 测试 时 ， 我 们 


=— 


Character class takes 0.000 seconds. 


我 们 只 能 知道 ， 这 段 程 序 所 需 的 时 间 比 计算 机 能 够 测量 的 最 短 时 
间 还 要 短 。 所 以 ， 如 果 程 序 运 行 的 时 间 太 短 ， 就 运行 两 次 、 十 次 ， 甚 
至 一 千 万 次 ， 来 保证 “足够 多 ”的 工作 。 这 里 的 “足够 多 ”取决 于 系统 时 钟 
的 精度 ， 大 多 数 系 统 能 够 精确 到 1/100s， 这 样 ， 即 使 程序 只 需要 0.5s， 
也 能 取得 有 意义 的 结 

e 进 行 “准确 的 处理。 进行 1 000 万 次 快速 操作 需要 在 负责 计时 的 代 
码 块 中 升级 1 000 万 次 计数 器 。 如 果 可 能 ， 最 好 的 办 法 是 增加 真正 的 处 
理 部 分 的 比例 ， 而 不 增加 额外 的 开销 。 在 Perl 的 例子 中 ， 正 则 表达 式 应 
用 的 文本 相当 短 : 如 果 应 用 到 长 得 多 的 字符 串 ， 在 每 次 循环 中 所 作 
的 “真正 的 ”处 理 也 会 多 一 些 。 

考虑 到 这 些 因 素 ， 我 们 可 以 得 出 下 面 的 程序 : 


use Time::HiRes 'time'; # 这 样 time () 的 返回 值 更 加 精确 
$TimesToDo = 1000; # hEELAKK 


$TestString = "abababdedfg" x 1000; # 生成 长 字符 串 


SCount = $TimesToDo; 
SStartTime = time(); 
while ($Count-- > 0) { 
$TestString =~ m/^(alblicidlelflg)+$/; 


SEndTime = time(); 
printf ("Alternation takes %.3f seconds.\n", $EndTime - $StartTime) ; 


SCount = $TimesToDo; 

SStartTime = time(); 

while ($Count-- > 0) { 
$TestString =~ m/*[a-g]+$/; 


SEndTime = time(); 
printf ("Character class takes %.3f seconds.\n", SEndTime - $StartTime) ; 
请 注意 ，$TestString #1 $Count 的 初始 化 在 计时 开始 之 前 
($TestString 使 用 了 Perl 提 供 的 x 操 作 符 进行 初始 化 ， 它 表示 将 左边 的 
字符 串 重复 右边 的 次 数 ) 。 在 我 的 机 器 上 ， 使 用 Perl5.8 运 行 的 结果 是 : 
Alternation takes 7.276 seconds. 
Character class takes 0.333 seconds. 


所 以 ， 对 这 个 例子 来 说 ， 多 选 结构 要 比 字符 组 快 22 倍 左右 。 此 测 
试 应 该 执行 多 次 ， 选 取 最 短 的 时 间 ， 以 减少 后 合 系统 活动 的 影响 。 


理解 测量 对 象 


Know What You're Measuring 
我 们 把 初始 化 程序 更 改 为 下 面 这 样 ， 会 得 到 更 有 意思 的 结 
STimesToDo = 1000000; 
STestString = "abababdedfg"; 
现在 ， 测 试 字符 串 只 是 上 面 的 长 度 的 1 000， 而 测试 需要 进行 1 
000 次 。 每 个 正则 表达 式 测 试 和 死 配 的 字符 总 数 并 没有 变化 ， 因 此 从 理 
WEH, “工作 量 ” 应 该 没有 变化 。 不 过 ， 结 果 却 大 不 相同 : 
Alternation takes 18.167 seconds. 
Character class takes 5.231 seconds. 


两 个 时 间 都 比 之 前 的 要 长 。 原 因 是 新 增 的 “ 非 处 理 * 开 销 对 
$Count 的 检测 和 更 新 ， 以 及 建立 正则 引擎 的 时 间 ， 现 在 的 次 数 是 以 前 
的 1000 倍 。 

对 于 字符 组 测试 来 说 ， 新 增 的 开销 花费 了 大 约 5s 的 时 间 ， 而 多 选 
结构 则 增加 了 将 近 10 秒 。 为 什么 多 选 结构 测试 的 时 间 变 化 如 此 之 大 ? 
主要 是 因为 捕获 型 括号 (在 每 次 测试 之 前 和 之 后 ， 它 们 都 需要 额外 处 
理 ， 这 样 的 操作 要 多 1 00017) 

无 论 如 何 ， 进 行 这 点 修改 的 要 点 在 于 说 明 ， 真 正 处 理 部 分 和 非 真 
正 处 理 部 分 在 计时 中 所 占 的 比重 会 强烈 地 影响 到 测试 结 


PHP 测 试 


Benchmarking with PHP 
下 面 是 PHP 的 测试 ， 使 用 preg 引 擎 ; 


S$TimesToDo = 1000; 


/* 准备 测试 字符 事 */ 


$TestString = ""; 
for ($i = 0; $i < 1000; $i++) 
$TestString .= “abababdedfg"; 


/* 开始 第 一 轮 测 试 */ 
$start = gettimeofday (); 
for ($i = 0; $i < $TimesToDo; $i++) 

preg match('/^(alblclelflg)+$/', $TestString) ; 
Sfinal = gettimeofday(); 
Ssec = (S$final['sec'] + $final['usec']/1000000) - 

(S$start['sec'] + Sstart['usec']/1000000); 

printf("Alternation takes %.3f seconds\n", $sec); 


/* 开始 第 二 轮 测 试 */ 
$start = gettimeofday(); 
for ($i = 0; $i < $TimesToDo; $i++) 
preg match('/*[a-g]+$/', $TestString) ; 
$final = gettimeofday(); 
$sec = ($final['sec'] + $final['usec']/1000000) - 
(S$start['sec'] + $start['usec']/1000000); 
printf ("Character class takes %.3f seconds\n", $sec); 


在 我 的 机 器 上 ， 结 果 是 : 
Alternation takes 27.404 seconds 
Character class takes 0.288 seconds 


如 果 在 测试 中 遇 到 PHP 错 误 “not being safe to rely on the system's 
timezone settings”， 请 添加 下 面 的 代码: 


if (phpversion() >= 5) 
date default timezone set ("GMT"); 


Java 测 试 


Benchmarking with Java 


因为 某 些 原因 ， 用 Java 测 试 很 有 讲究 。 首 允 看 个 考虑 不 够 周到 的 例 
子 ， 然 后 请 思考 它 为 什么 考虑 不 周到 ， 应 该 如 何 改进 : 


import java.util. regex.*; 

public class JavaBenchmark | 

public static void main(String [] args) 

| 
Matcher regexl = Pattern.compile("*(alb|c|d|e|f£|q)+5") .matcher(""); 
Matcher regex2 = Pattern.compile("*[a-g]+$") .matcher(""); 
long timesToDo = 1000; 


StringBuffer temp = new StringBuffer(); 
for (int i = 1000; i > 0; i--) 

temp. append ("abababdedfq") ; 
String testString = temp.toString(); 


// 划一 轮 测试 计时 ... 
long count = timesToDo; 
long startTime = System.currentTimeMillis(); 
while (--count > 0) 
regexl.reset (testString) .find(); 
double seconds = (System.currentTimeMillis() - startTime) /1000.0; 
System.out.println("Alternation takes " + seconds + " seconds"); 


// 第 二 给 测试 计时 ... 
count = timesToDo; 
startTime = System.currentTimeMillis(); 
while (--count > 0) 
regex2. reset (testString) .find(); 
seconds = (System.currentTimeMillis() - startTime)/1000.0; 
System.out.println("Character class takes " + seconds + " seconds"); 
} 


你 注意 到 在 这 个 程序 中 正则 表达 式 如 何 初 始 化 部 分 编译 了 吗 ? 我 
们 需要 测试 的 是 匹配 的 速度 ， 而 不 是 编译 的 速度 。 

速度 取决 于 所 使 用 的 虚拟 机 (VM) 。Sun 的 标准 JRE 有 两 种 虚拟 
NL, client VM 为 快速 启动 而 优化 ，server VM 为 长 时 间 、 大 负 答 的 作业 
而 优化 。 

在 我 的 机 器 上 ， 使 用 dient YM 运行 测试 的 结果 如 下 : 


Alternation takes 19.318 seconds 
Character class takes 1.685 seconds 


使 用 server VM 的 结果 如 下 : 


Alternation takes 12.106 seconds 
Character class takes 0.657 seconds 


这 样 看 来 测试 有 点 不 可 信 了 ， 之 所 以 说 它 不 够 周到 ， 原 因 在 于 计 
时 的 结果 在 很 大 程度 上 取决 于 自动 的 预 执 行 编译 器 (automatic pre- 
execution compiler) 的 工作 ， 或 者 说 运行 时 编译 器 (run-time 
compiler) 与 测试 代码 的 交互 情况 。 某 些 虚 拟 机 包含 JIT (Just-In-Time 
compiler) ，JIT 会 根据 需要 ， 在 需要 执行 代码 之 前 才 进 行 编译 。 

Java 使 用 了 我 称 为 BLTN (Better-Late-Than-Never) 的 编译 器 ， 在 
执行 期 间 计 数 ， 对 反复 使 用 的 代码 根据 需要 进行 编译 和 优化 。BLTN 的 
性 质 是 ， 它 只 对 认为 “热门 ”(hot， 即 大 量 使 用 ) 的 代码 进行 干预 。 如 
果 虚 拟 机 已 经 运行 了 一 段 时 间 ， 例 如 在 服务 器 环境 中 ， 它 已 经 “ 预 
热 ”* 完 毕 ， 而 我 们 的 简单 例子 确保 了 一 台 “ 深 ”的 服务 器 (BLTN 没 有 进行 
任何 优化 ) ° 

可 以 把 测试 部 分 放 入 一 个 循环 ， 来 观察 “ 预 热 * 现 象 : 

// 第 一 轮 测试 计时 ... 


for (int i = 4; i > 0; i--) 
| 


long count = timesToDo; 
long startTime = System.currentTimeMillis(); 
while (--count > 0) 
regexl.reset (testString) .find(); 
double seconds = (System.currentTimeMillis() - startTime) /1000.0; 
System.out.println("Alternation takes " + seconds + " seconds"); 


如 果 新 增 的 循环 运行 足够 长 (例如 ，10s) ，BLTN 就 会 优化 热门 
代码 ， 最 后 一 次 输出 的 时 间 束 代表 了 已 预 热 系统 的 情况 。 再 次 使 用 
server VM， 这 些 时 间 确 实 比 之 前 有 了 8% 和 25% 的 提高 。 


Alternation takes 11.151 seconds 
Character class takes 0.483 seconds 


另 一 个 问题 在 于 ， 负 责 调度 GC 线 程 的 工作 是 不 确定 的 。 所 以 ， 进 
行 足够 长 时 间 的 测试 能 够 降低 这 些 不 确定 因素 的 影响 。 


VB.NET ix 


Benchmarking with VB.NET 
下 面 是 VB.NET 的 测试 程序 : 


Option Explicit On 
Option Strict On 


Imports System.Text.RegularExpressions 


Module Benchmark 
Sub Main () 
Dim Regexl as Regex = New Regex("*(albl|c|dje|£|g)+$") 
Dim Regex2 as Regex = New Regex ("*[a-g]+$") 
Dim TimesToDo as Integer = 1000 
Dim TestString as String = "" 
Dim I as Integer 
For I = 1 to 1000 
TestString = TestString & "abababdedfq" 
Next 


Dim StartTime as Double = Timer() 
For I = 1 to TimesToDo 
Regex1.Match (TestString) 
Next 
Dim Seconds as Double = Math.Round(Timer() - StartTime, 3) 
Console.WriteLine("Alternation takes " & Seconds & " seconds") 


StartTime = Timer () 
For I = 1 to TimesToDo 
Regex2.Match(TestString) 

Next 

Seconds = Math.Round(Timer() - StartTime, 3) 

Console.WriteLine ("Character class takes " & Seconds & " seconds") 
End Sub 
End Module 


TERA Vlas, RE: 


Alternation takes 13.311 seconds 
Character class takes 1.680 seconds 


在 .NET Framework 中 使 用 RegexOptions.Compiled 作 为 正则 表达 式 
构造 函数 的 第 2 个 参数 ， 能 够 把 正则 表达 式 编译 为 效率 更 高 的 形式 (cS 
410) ， 其 结果 为 


Alternation takes 5.499 seconds 
Character class takes 1.157 seconds 


使 用 Compiled 功 能 之 后 ， 两 个 测试 的 速度 都 有 提高 ， 但 是 多 选 结 
构 的 相对 上 升幅 度 更 为 明显 (几乎 是 之 前 的 3 倍 ， 而 字符 组 的 程序 只 提 
高 到 之 前 的 1.5 倍 ) ， 所 以 多 选 结构 从 中 获 益 更 大 。 


Ruby 测 试 


Benchmarking with Ruby 
下 面 是 Ruby 的 测试 代码 : 
TimesToDo=1000 
testString="" 
for i in 1..1000 
testString += "abababdedfg" 
end 
Regexl = Regexp::new("*(albicidije|£|g)+$"); 
Regex2 = Regexp::new("*[a-g]+$"); 
StartTime = Time.new.to f 
for i in 1..TimesToDo 
Regexl ,match (testString) 
end 
print "Alternation takes %.3f seconds\n" $ (Time.new.to f - startTime); 
startTime = Time.new.to f 
for i in 1..TimesToDo 
Regex2.match (testString) 
end 
print "Character class takes $.3f seconds\n" % (Time.new.to f - startTime) ; 


在 我 的 机 器 上， 结果 如 下 : 


Alternation takes 16.311 seconds 
Character class takes 3.479 seconds 


Python 测试 


Benchmarking with Python 
下 面 是 Python 的 测试 代码 : 


import re 
import time 
import fpformat 
Regexl = re.compile("*(a|b|c|dlje|flg) +5") 
Regex2 = re.compile("*[a-g]+$") 
TimesToDo = 1250; 
TestString = "" 
for i in range(800): 
TestString += "abababdedfg" 
StartTime = time.time() 
for i in range(TimesToDo) : 
Regexl.search (TestString) 
Seconds = time.time() - StartTime 
print "Alternation takes " + fpformat.fix(Seconds,3) + " seconds" 
StartTime = time.time() 
for i in range(TimesToDo) : 
Regex2.search (TestString) 
Seconds = time.time() - StartTime 
print "Character class takes " + fpformat.fix(Seconds,3) + " seconds" 


因为 Python 的 正则 引擎 设 定 的 限制 ， 我 们 必须 减少 字符 串 的 长 度 ， 
为 原来 长 度 的 字符 串 会 导致 内 部 错误 (“maximum recursion limit 
exceeded”) 。 这 种 规定 有 点 像 减 压 阀 ， 它 有 助 于 终止 无 休止 匹配 。 

作为 弥补 ， 我 相应 增加 了 测试 的 次 数 。 在 我 的 机 器 上 ， 测 试 结 


为 : 
Alternation takes 10.357 seconds 
Character class takes 0.769 seconds 


Tal 测试 


Benchmarking with Tcl 


下 面 是 Tcl 的 测试 代码 : 


set TimesToDo 1000 

set TestString "" 

for {set i 1000} {$i > 0} {incr i -1} f 
append TestString "abababdedfg" 

} 


set Count $TimesToDo 
set StartTime [clock clicks -milliseconds] 
for {} {$Count > 0} {incr Count -1} { 
regexp {*(albic|dle|flg)+$} $TestString 
} 
set EndTime [clock clicks -milliseconds] 
set Seconds [expr ($EndTime - $StartTime) /1000.0] 
puts [format "Alternation takes %.3f seconds" $Seconds] 


set Count $TimesToDo 
set StartTime [clock clicks -milliseconds] 
for {} {$Count > 0} {incr Count -1} { 
regexp {*[a-g]+$} $TestString 
} 
set EndTime [clock clicks -milliseconds] 
set Seconds [expr ($EndTime ~- $StartTime) /1000.0] 
puts [format "Character class takes %.3f seconds" $Seconds] 


TERA Vlas, RU T: 


Alternation takes 0.362 seconds 
Character class takes 0.352 seconds 


神奇 的 是 ， 两 者 速度 相当 。 还 记得 吗 ， 我 们 在 第 145 页 说 过 ，Tcl 使 
用 的 是 NFA/DFA 混 合 引擎 ， 对 DFA 引 擎 来 说 ， 这 两 个 表达 式 是 没有 区 
别 的 。 本 章 所 举 的 大 部 分 例子 并 不 适用 于 Tel， 详 细 信 息 请 参考 第 243 
页 。 


常见 优化 措施 


Common Optimizations 

聪明 的 正则 表达 式 实现 (implementation) 有 许多 办 法 来 优化 ， 提 
高 取得 结果 的 速度 。 优 化 通常 有 两 种 办 法 : 

e 加 速 某 些 操作 。 某 些 类 型 的 匹配 ， 例 如 \d+，， 极 为 常见 ， 引 警 
可 能 对 此 有 特殊 的 处 理 方案 ， 执 行 速度 比 通用 的 处 理 机 制 要 快 。 

e 和 避免 风 余 操作 。 如 果 引 擎 认为 ， 对 于 产生 正确 结果 来 说 ， 某 些 特 
殊 的 操作 是 不 必要 的 ， 或 者 某 些 操作 能 够 应 用 到 比 之 前 更 少 的 文本 ， 
忽略 这 些 操作 能 够 节省 时 间 。 例 如 ， 一 个 以 \A，( 行 开头 ) 开头 的 正 
则 表达 式 只 有 在 字符 串 的 开头 位 置 才 能 匹配 ， 如 果 在 此 处 无 法 匹配 ， 
传动 装置 不 会 徒劳 地 尝试 其 他 位 置 (进行 无 谓 的 尝试 ) 。 

在 下 面 的 十 儿 页 中 ， 我 会 讲解 自己 见 过 的 许多 种 不 同 的 天 才 优 化 
措施 。 没 有 任何 一 种 语言 或 者 工具 提供 了 所 有 这 些 措施 ， 或 者 只 是 与 
其 他 语言 和 工具 相同 的 优化 措施 ; 我 也 确信 ， 还 有 许多 我 没 见 过 的 优 
化 措施 ， 但 看 完 本 章 的 读者 ， 应 该 能 够 合理 利用 自己 所 用 工具 提供 的 
任何 优化 措施 。 


有 得 必 有 失 


No Free Lunch 

通常 来 说 优化 能 节省 时 间 ， 但 并 非 永 远 如 此 。 只 有 在 检测 优化 措 
施 是 否 可 行 所 需 的 时 间 少 于 节省 下 来 的 匹配 时 间 的 情况 下 ， 优 化 才 是 
有 益 的 。 事 实 上， 如 果 引 警 检 查 之 后 认为 不 可 能 进行 优化 ， 结 果 总 是 
会 更 慢 ， 因 为 最 开始 的 检查 需要 花费 时 间 。 所 以 ， 在 优化 所 需 的 时 
间 ， 方 省 的 时 间 ， 以 及 更 重要 的 因素 一 一 优化 的 可 能 性 之 间 ， 和 存在 互 
相 制 约 的 关系 。 

来 看 一 个 例子 。 表 达 式 \b\B， ( 某 个 位 置 既是 单词 分 隔 符 又 不 是 
单词 分 隔 符 ) 是 不 可 能 匹配 的 。 如 果 引 擎 发 现 提供 的 表达 式 包含 
NDB 就 知道 整个 表达 式 都 无 法 匹配 ， 因 而 不 会 进行 任何 匹配 操作 。 


它 会 立刻 报告 匹配 失败 。 如 果 匹 配 的 文本 很 长 ， 节 省 的 时 间 就 非常 可 
观 。 

不 过 ， 我 所 知 的 正则 引擎 都 没有 进行 这 样 的 优化 。 为 什么 ? A 
先 ， 很 难 判断 这 条 规则 是 否 适 用 于 某 个 特定 的 表达 式 。 某 个 包含 
NDB) 的 正则 表达 式 很 可 能 可 以 匹配 ， 所 以 引擎 必须 做 一 些 额外 的 工 
作 来 预先 确认 。 当 然 ， 节 省 的 时 间 确 实 很 可 观 ， 所 以 如 果 预 计 到 
NDB 经 常 出 现 ， 这 样 做 还 是 值得 的 。 

不 幸 的 是 ， 这 并 不 常见 (TARE) 〈 注 4) ， 虽 然 在 极 少 数 情况 
下 这 样 做 可 以 节省 大 量 的 时 间 ， 但 其 他 情况 下 速度 降低 的 代价 比 这 高 


得 多 。 


优化 各 有 不 同 


Everyone's Lunch is Different 

在 讲解 各 种 优化 措施 时 ， 请 务必 记 住 一 点 “优化 各 有 不 同 
(everyone’s lunch is different) ”。 虽然 我 尽量 使 用 人 简单 清晰 的 名 字 来 命 
名 每 种 措施 ， 但 不 同 的 引擎 必然 可 能 以 不 同 的 方式 来 优化 。 对 某 个 正 
则 表达 式 进行 细微 的 改动 ， 在 某 个 实现 方式 中 可 能 会 带 来 速度 的 大 幅 
提升 ， 而 在 另 一 个 实现 方式 中 大 大 降低 速度 。 


正则 表达 式 的 应 用 原理 


The Mechanics of Regex Application 

我 们 必须 先 掌 握 正 则 表达 式 应 用 的 基本 知识 ， 然 后 讲解 先进 系统 
的 优化 原理 及 利用 方式 。 之 前 已 经 了 解 了 回溯 的 细节 ， 在 本 市 我 们 要 
进行 更 全 面 地 学 习 。 

正则 表达 式 应 用 到 目标 字符 串 的 过 程 大 致 分 为 下 面 几 步 : 

1. 正则 表达 式 编 译 检查 正则 表达 式 的 语法 正确 性 ， 如 果 正 确 ， 就 
将 其 编译 为 内 部 形式 (internal form) 。 
2. 传动 开始 传动 装置 将 正则 引擎 “定位 ?到 目标 字符 串 的 起 始 位 


=. 


3. 元 素 检测 引擎 开始 测试 正则 表达 式 和 文本 ， 依 次 测试 正则 表达 
式 的 各 个 元 素 (comp-onent) ， 如 第 4 章 所 说 的 那样 。 我 们 已 经 详细 考 
察 了 NFA 的 回 洲 ， 但 是 还 有 几 点 需要 补充 : 

e 相 连 元 素 ,例如 Subject 中 的 'S,、u/、'b,、j,、e@ 等 
等 ， 会 依次 尝试 ， 只 有 当 某 个 元 素 匹 配 失败 时 才 会 停止 。 

e 量 词 修饰 的 元 素 ， 控 制 权 在 量词 (检查 量词 是 否 应 该 继续 匹配 ) 
和 被 限定 的 元 素 (测试 能 否 匹 配 ) 之 间 轮 换 。 

e 控 制 权 在 捕获 型 括号 内 外 进行 切换 会 珊 来 一 些 开 销 。 括 号 内 的 表 
达 式 匹配 的 文本 必须 保留 ， 这 样 才能 通过 $1 来 引用 。 因 为 一 对 括号 可 
能 属于 某 个 回 济 分 支 ， 括 号 的 状态 就 是 用 于 回溯 的 状态 的 一 部 分 ， 所 
以 进入 和 退出 捕获 型 括号 时 需要 修改 状态 。 

4. 寻找 匹配 结果 如 果 找 到 一 个 匹配 结果 ， 传 统 型 NFA 会 “锁定 ”在 
当前 状态 ， 报 告 匹配 成 功 。 而 对 POSIX NFA 来 说 ， 如 果 这 个 匹配 是 迄 
今 为 止 最 长 的 ， 它 会 记 住 这 个 可 能 的 匹配 ， 然 后 从 可 用 的 保存 状态 继 
续 下 去 。 保 存 的 状态 都 测试 完毕 之 后 返回 最 长 的 匹配 。 

5. 传动 装置 的 驱动 过 程 如 果 没 有 找到 人 匹配， 传动 装置 就 会 驱动 引 
擎 ， 从 文本 中 的 下 一 个 字符 开始 新 一 轮 的 党 试 ( 回 到 步 又 3) 。 

6. 匹配 彻底 失败 如 果 从 目标 字符 串 的 每 一 个 字符 (包括 最 后 一 个 
字符 之 后 的 位 置 ) 开始 的 尝试 都 失败 了 ， 就 会 报告 匹配 彻底 失败 。 

下 面 儿 节 讲 解 高 级 的 实现 方式 如 何 减少 这 些 处 理 ， 以 及 如 何 应 用 
这 些 技巧 。 


应 用 之 前 的 优化 措施 


Pre-Application Optimizations 

优秀 的 正则 引擎 实现 方式 能 够 在 正则 表达 式 实 际 应 用 之 前 就 进行 
优化 ， 它 有 时 候 甚 至 能 迅速 判断 出 ， 某 个 正则 表达 式 无 论 如 何 也 无 法 
匹配 ， 所 以 根本 不 必 应 用 这 个 表达 式 。 

编译 缓存 

第 2 章 的 E-mail 处 理 程序 中 ， 用 于 处 理 header 各 行 的 主 循环 体 中 是 这 
样 的 : 


while (…) { 

if ($line =~ m/*\s*§/ ) … 
if ($line =~ m/*Subject: (.*)/):: 
if ($line =~ m/“*Date: (.*)/)-::: 
if ($line =~ m/*Reply-To: (\S+)/)-::: 
if ($line =~ m/*From: (\S+) \(([*()]*)\)/) °°: 

} 

正则 表达 式 使 用 之 前 要 做 的 第 一 件 事情 是 进行 错误 检查 ， 如 采 没 
有 问题 则 编译 为 内 部 形式 。 编 译 之 后 的 内 部 形式 能 用 来 检查 各 种 字符 
串 ， 但 是 这 段 程 序 的 情况 如 何 ? 显然 ， 每 次 循环 都 要 重新 编译 所 有 正 
则 表达 式 ， 这 很 浪费 时 间 。 相 反 ， 在 第 一 次 编译 之 后 就 把 内 部 形式 保 
存 或 缓存 下 来 ， 在 此 后 的 循环 中 重复 使 用 它们 ， 显 然 会 提高 速度 (只 
是 要 消耗 些 内存 ) 。 

具体 做 法 取决 于 应 用 程序 提供 的 正则 表达 式 处 理 方式 。93 页 已 经 
说 过 ， 有 3 种 处 理 方式 : 集成 式 、 程 序 式 和 面向 对 象 式 。 

集成 式 处 理 中 的 编译 缓存 

Perl 和 awk 使 用 的 就 是 集成 式 处 理 方法 ， 非 常 容易 进行 编译 绥 
存 。 从 内 部 来 说 ， 每 个 正则 表达 式 都 关联 到 代码 的 某 一 部 分 ， 第 一 次 
执行 时 在 编译 结果 与 代码 之 间 建 立 关 联 ， 下 次 执行 时 只 需要 引用 即 
可 。 这 样 最 节省 时 间 ， 代 价 就 是 需要 一 部 分 内 存 来 保存 缓存 的 表达 
式 o 


DFA, Tel 与 手工 调 校正 则 表达 式 
本 章 中 介绍 的 大 部 分 优化 措施 并 不 适用 于 DFA， 第 242 页 介绍 的 编译 缓存 却 运 用 于 所 
有 的 引 学， 但 是 本 章 讨 论 的 所 有 手工 调 校 都 不 适用 于 DFA, RARLARA, PHL 
相等 的 正则 表达 式 thislthatife thlislat)n 对 DFA 来 说 是 等 价 的 ,之 所 以 要 写本 
章 ， 有 是 因为 它们 对 NFA 来 说 不 相等 。 


那么 使 用 DFANFA 混合 引 学 的 Tel 呢 ? Tol 的 正则 引 党 是 由 正则 表达 式 的 传奇 人 物 


Henry Spencer (7°88) 为 Tel 专门 开发 的 ， 筷 成 功 地 融合 了 DFA 和 NFA 的 优点 。 在 
2000 Æ 4 F] #5 Usenet posting 中 ，Henry 这 样 写 到 ， 
总 的 来 说 ， 与 传统 的 正则 引擎 相 比 ，Tel 的 引擎 对 正则 表达 式 的 具体 形式 的 敏感 
度 要 低 得 多 。 无 论 正则 表达 式 写 成 怎么 样 ， 该 快 的 就 快 ， 该 慢 的 就 慢 。 传 统 的 正 
则 表达 式 手工 优化 在 这 里 不 适用 ， 
Henry 的 Tel 正则 引 学 是 一 大 进步 。 如果 其 中 的 技术 流行 开 来 ， 本 章 的 许多 内 容 就 毫 无 
意义 了 


变量 插值 功能 (variable interpolation， 即 将 变量 的 值 作为 正则 表达 
式 的 一 部 分 ) 可 能 会 给 缓存 造成 麻烦 。 例 如 对 m/ASubject: AQ 
$DesiredSubject\E\s 炎 $/ 来 说 ， 每 次 循环 中 正则 表达 式 的 内 容 可 能 会 发 
生 改 变 ， 因 为 它 取 决 于 插值 变量 ， 而 这 个 变量 的 值 可 能 会 变化 。 如 有 果 
每 次 都 会 不 同 ， 那 么 正则 表达 式 每 次 都 需要 编译 ， 完 全 不 能 重复 利 
用 o 

尽管 正则 表达 式 可 能 每 次 循环 都 会 变化 ， 但 这 并 不 是 说 任何 时 候 
都 需要 重新 编译 。 折 中 的 优化 措施 就 是 检查 插值 后 的 结果 〈 也 就 是 正 
则 表达 式 的 具体 值 ) ， 只 有 当 具 体 值 发 生变 化 时 才 重 新 编译 。 不 过 ， 
如 果 变 化 的 几率 很 小 ， 大 多 数 时 候 就 只 需要 检查 〈 而 不 需要 编译 ) ， 
优化 效果 很 明显 。 

程序 式 处 理 中 的 编译 缓存 

在 集成 式 处 理 中 ， 正 则 表达 式 的 使 用 与 其 在 程序 中 所 处 的 具体 位 
置 相 关 ， 所 以 再 次 执行 这 段 代 码 时 ， 编 译 好 的 正则 表达 式 承 能够 缓存 
和 重复 使 用 。 但 是 ， 程 序 式 处 理 中 只 有 通用 的 “应 用 此 表达 式 ” 的 函 


数 。 也 就 是 说 ， 编 译 形式 并 不 与 程序 的 具体 位 置 相 连 ， 下 次 调用 此 画 
数 时 ， 正 则 表达 式 必 须 重 新 编译 。 从 理论 上 来 说 就 是 如 此 ， 但 是 在 实 
际 应 用 中 ， 茜 止 和 尝试 缓存 的 效率 无 疑 很 低 。 相 反 ， 优 化 通常 是 把 最 近 
使 用 的 正则 表达 式 模式 (regex pattem) 保存 下 来 ， 关 联 到 最 终 的 编译 
形式 。 

调用 “应 用 此 表达 式 ” 函 数 之 后 ， 作 为 参数 的 正则 表达 式 模式 会 与 
保存 的 正则 表达 式 相 比较 ， 如 采 存 在 于 缓存 中 ， 束 使 用 绥 存 的 版 本 。 
如 果 没 有 ， 就 直接 编译 这 个 正则 表达 式 ， 将 其 存 入 缓存 (如 果 缓 存 有 
容量 限制 ， 可 能 会 替换 一 个 旧 的 表达 式 ) 。 如 果 缓 存 用 完了 ， 就 必须 
放弃 (thrown out) 一 个 编译 形式 ， 通 常 是 最 久未 使 用 的 那个 。 

GNU Emacs 的 缓存 能 够 保存 最 多 20 个 正则 表达 式 ，Tal 能 保存 30 
个 。PHP 能 保存 四 千 多 个 。.NET Framework 在 默认 情况 下 能 保存 15 个 
表达 式 ， 不 过 数量 可 以 动态 设置 ， 也 可 以 禁止 此 功能 (432) 。 

缓存 的 大 小 很 重要 ， 因 为 如 果 缓 存 装 不 下 循环 中 用 到 的 所 有 正则 
表达 式 ， 在 循环 重 靳 开始 时 ， 最 开始 的 正则 表达 陈 会 被 清除 出 缓存 ， 
结果 每 个 正则 表达 式 都 需要 重新 编译 。 

面向 对 象 式 处 理 中 的 编译 缓存 

在 面 癌 对 象 式 处 理 中 ， 正 则 表达 式 何 时 编译 完全 由 程序 员 决 定 。 
正则 表达 式 的 编译 是 用 户 通 过 New Regex 、re.compile 和 Pattern.compile 

(分 别 对 应 .NET、Python 和 java.util.regex) 之 类 的 构造 函数 来 进行 的 。 
第 3 章 的 简单 示例 对 此 做 了 介绍 (从 第 95 页 开始 ) ， 编 译 在 正则 表达 式 
实际 应 用 之 前 完成 ， 但 是 它们 也 可 以 更 早 完 成 《有 时 候 可 以 在 循环 之 
前， 或 者 是 程序 的 初始 化 阶段 } ， 然 后 可 以 随意 使 用 。 在 第 235、237 
和 238 页 的 性 能 测试 中 体现 了 这 一 点 。 

在 面 癌 对 象 式 处 理 中 ， 程 序 员 通 过 对 象 析 构 函数 抛弃 (thrown 
away) 编译 好 的 正则 表达 式 。 及 时 抛弃 不 需要 的 编译 形式 能 够 节省 内 
oe 

预 查 必 须 字 符 / 子 字符 串 优 化 

相 比 正则 表达 式 的 完整 应 用 ， 在 字符 串 中 搜索 某 个 字符 (或 者 是 

PFR) 是 更 加 “ 轻 量 级 ”的 操作 ， 所 以 某 些 系统 会 在 编译 阶段 做 些 
额外 的 分 析 ， 判 断 是 否 存在 成 功 匹 配 必 须 的 字符 或 者 字符 串 。 在 实际 


应 用 正则 表达 式 之 前 ， 在 目标 字符 串 中 快速 扫描 ， 检 查 所 需 的 字符 或 
者 字符 串 一 一 如 果 不 存 在 ， 根 本 就 不 需要 进行 任何 党 试 。 

举例 来 说 ， ASubject: © (x) ， 的 'Subject: :是 必须 出 现 的 。 程 
序 可 以 检查 整个 字符 串 ， 或 者 使 用 Boyer-Moore 搜 索 算 法 (这 是 一 种 很 
快 的 文件 检索 算法 ， 字 符 串 越 长 ， 效 率 越 高 ) 。 没 有 采用 Boyer-Moore 
算法 的 程序 进行 逐个 字符 检查 也 可 以 提高 效率 。 选 择 目 标 字 符 串 中 不 
太 可 能 出 现 的 字符 (例如 ‘Subject: FA’ ZA’: ”) 能 够 进一步 提 

正则 引擎 必须 能 识别 出 ， ASubject: : Cx) | 的 一 部 分 是 固定 的 
文本 字符 串 ， 对 任意 匹配 来 说 ， 识 别 出 “thislthatlother | P th Æ% 2 
的 ， 需 要 更 多 的 工夫 ， 而 且 大 多 数 正 则 引擎 不 会 这 样 做 。 此 问题 的 答 
案 并 不 是 黑 日 分 明 的 ， 某 个 实现 方式 或 许 不 能 识别 出 ‘由 是 必须 的 ， 但 
能 够 识别 出 和 对 都 是 必须 的 ， 所 以 至 少 可 以 检查 一 个 字符 。 

不 同 的 应 用 程序 能 够 识别 出 的 必须 字符 和 字符 串 有 很 大 差别 。 许 
多 系统 会 受到 多 选 结构 的 干扰 。 在 这 种 系统 中 ， 使 用 th (islat) | 的 表 
现 好 于 thislthat |。 同样 ， 请 参考 第 247 页 的 “开头 字符 /字符 组 / 子 串 识 
别 优化 ”。 

长 度 判 断 优化 

[ASubject: .(. 火 ) | 能 匹配 文本 的 长 度 是 不 固定 的 ， 但 是 至 少 必 
MAE 9 个 字符 。 所 以 ， 如 果 目 标 字符 串 的 长 度 小 于 9 则 根本 不 必 和 党 
试 。 当 然 ， 需 要 匹配 的 字符 更 长 优化 的 效果 才 更 明显 ， 例 如 : 
\d{79}: | (至 少 需要 81 个 字符 ) ° 

请 参见 第 247 页 的 “长 度 识别 传动 优化 ”。 

通过 传动 装置 进行 优化 

Optimizations with the Transmission 

即使 正则 引擎 无 法 预知 有 个 字符 串 能 个 匹配 ， 也 能 够 减少 传动 猴 
置 真正 应 用 正则 表达 式 的 位 置 。 

字符 串 起 始 / 行 锚 点 优化 


这 种 优化 措施 能 够 判断 ， 任 何以 ^, 开头 的 正则 表达 式 只 能 在 
A, 能 够 匹配 的 情况 下 才 可 能 匹配 ， 所 以 只 需要 在 这 些 位 置 应 用 即 
可 。 

在 “ 预 碍 必须 字符/ 子 字符 串 优 化 "中 提 到 ， 正 则 引擎 必须 判断 对 某 
个 正则 表达 式 来 说 有 哪些 可 行 的 优化 ， 在 这 里 同样 有 效 。 任 何 使 用 此 
优化 的 实现 方式 都 必须 能 够 识别 :如果 TA (thislthat) | 匹配 成 功 ， 
A, 必须 能 够 匹配 ， 但 许多 实现 方式 不 能 识别 “AthislAthat ° HEEF, M 
lA (this|that) ， 或 者 ^ (? : thislthat) ， 能 够 提高 匹配 的 速度 。 

同样 的 优化 措施 还 对 \A, 有效， 如果 匹配 多 次 进行 ， 对 \G | 也 
有 效 。 

隐 式 销 点 优化 

能 使 用 此 种 优化 的 引擎 知道 ， 如 果 正 则 表达 式 以 .类 ,或 +, 开 
头 ， 而 且 没 有 全 局 性 多 选 结构 (global alternation) ， 则 可 以 认为 此 正 
则 表达 式 的 开头 有 一 个 看 不 见 的 ^| 。 这 样 就 能 使 用 上 一 节 的 “字符 串 
起 始 /行销 点 优化 ”>， 区 省 大 量 的 时 间 。 

更 聪明 的 系统 能 够 认识 到 ， 即 使 开头 的 .类 | 或 + 在 括号 内 ， 
也 可 以 进行 同样 的 优化 ， 但 是 在 遇 到 捕获 插 号 时 必须 小 心 。 例 如 ， 
l (+) X\1 PALMAE REX PUY, Beil. 就 不 
能 匹配 1234X2345”( 注 5) © 


字符 申 结束 / 行 错 点 优化 

这 种 优化 遇 到 末尾 为 '$, 或 者 其 他 结束 锚 点 (129) 的 正则 表达 
式 时 ， 能 够 从 字符 串 末 尾 倒数 若干 字符 的 位 置 开始 尝试 匹配 。 例 如 正 
则 表达 式 “regex (es) ? $, 匹配 只 可 能 从 字符 串 未 尾 倒数 的 第 8 个 字符 
( 注 6) 开始 ， 所 以 传动 装置 能 够 跳 到 那个 位 置 ， 略 过 目标 字符 串 中 许 
多 可 能 的 字符 。 

开头 字符 /字符 组 / 子 串 识别 优化 

这 是 “ 预 查 必 须 字符 / 子 字 符 串 优化 "的 更 一 般 的 版 本 ， 这 种 优化 使 
用 同样 的 信息 (正则 表达 式 的 任何 匹配 必须 以 特定 字符 或 文字 子 字符 
BFA) ， 容 许 传动 装置 进行 快速 子 字符 串 检查 ， 所 以 它 能 够 在 字符 


串 中 合适 的 位 置 应 用 正则 表达 式 。 例 如 ， thislthatlother 只 能 从 

[ot] 的 位 置 开 始 匹配 ， 所 以 传动 装置 预先 检查 字符 串 中 的 每 个 字 
符 ， 只 在 可 能 匹配 的 位 置 进行 应 用 ， 这 样 能 节省 大 量 的 时 间 。 能 够 预 
先 检 查 的 子 串 越 长 , “错误 的 开始 位 置 ”就 越 少 。 

内 峰 文 字 字 符 串 检 查 优 化 

这 有 点 类 似 初始 字符 串 识别 优化 ， 不 过 更 加 高 级 ， 它 针对 的 是 在 
匹配 中 国定 位 置 出 现 的 文字 字符 串 。 如 果 正 则 表达 式 是 '\b 

(perlljava) \.regex\.info\b, ， 那 么 任何 匹配 中 都 要 有 “regex.info:， 所 以 
智能 的 传动 装置 能 够 使 用 高 速 的 BoyerMoore 字 符 串 检索 算法 寻 
找 'regex.info"， 然 后 往 前 数 4 个 字符 ， 开 始 实际 应 用 正则 表达 式 。 

一 般 来 说 ， 这 种 优化 只 有 在 内 岁 文 字 字 符 串 与 表达 式 起 始 位 置 的 
距离 固定 时 才能 进行 。 因 此 它 不 能 用 于 \b (vbljava) \.regex\.info\b, , 
这 个 表达 式 虽 然 包含 文字 字符 串 ， 但 此 字符 串 与 匹配 文本 起 始 位 置 的 
距离 是 不 确定 的 〈2 个 或 4 个 字符 ) 。 这 种 优化 同样 也 不 能 用 于 fb 

(\w+) \egex\.infolb,, ALN! (w+) , 可 能 匹配 任意 数目 的 字符 。 

长 度 识 别传 动 优化 

此 优化 与 245 页 的 长 度 识别 优化 直接 相关 ， 如 果 当 前 位 置 距离 字 
符 串 末尾 的 长 度 小 于 成 功 匹配 所 需 最 小 长 度 ， 传 动 装置 会 停止 匹配 和 
试 。 


优化 正则 表达 式 本 身 


Optimizations of the Regex Itself 

文字 字符 串 连 接 优化 

也 许 最 基本 的 优化 就 是 ， 引 警 可 以 把 abc| 当 作 "一 个 元 素 ”， 而 不 
是 三 个 元 素 “ ai ， 然 后 是 b| ， 然 后 是 “cj ”。 如 果 能 够 这 样 ， 整 个 音 
分 就 可 以 作为 匹配 迭代 的 一 个 单元 ， 而 不 需要 进行 三 次 迭 代 。 

化 简 量 词 优化 

约束 普通 元 素 一 一 例如 文字 字符 或 者 字符 组 一 一 的 加 号 、 星 号 之 
类 的 量词 ， 通 常 要 经 过 优化 ， 避 免 普通 NFA3 引 擎 的 大 部 分 逐步 处 理 开 
销 (step-by-step overhead) 。 正 则 引 警 内 的 主 循环 必须 通用 


(general) ， 能 够 处 理 引 警 文 持 的 所 有 结构 。 而 在 程序 设计 中 , “oe 
用 ”意味 着 “速度 慢 "， 所 以 此 种 优化 把 . 尖 |， 之 类 的 简单 量词 作为 一 
个 “整体 "， 正 则 引擎 便 不 必 按 照 通 用 的 办 法 处 理 ， 而 使 用 高 速 的 ， 专 
门 化 的 处 理 程序 。 这 样 ， 通 用 引 警 就 绕 过 (short-circuit) 了 这 些 结 
构 。 

举例 来 说 ， .类 和 ”(? : .) 类 | 在 逻辑 上 是 相等 的 ， 但 是 在 进 
行 此 优化 的 系统 中 ，'. 类 | 实际 上 更 快 。 举 一 些 例子 : 在 java.utiLregex 
中 ， 人 性 能 提升 在 10% 左 右 ， 但 是 在 Ruby 和 .NET 中 ， 大 概 是 2.5 倍 。 在 
Python 中 ， 大 概 是 50 倍 。 在 PHP/PCRE 中 ， 大 概 是 150 倍 。 因 为 Pen 实现 
了 下 一 节 介绍 的 优化 措施 ， .类 和 (? : .) 类 | 的 速度 是 一 样 的 
(请 参考 下 一 页 的 补充 内 容 ， 了 解 如 何 解释 这 些 数据 ) 。 

消除 无 必要 括号 

如 果 某 种 实现 方式 认为 ”(? : .) 类 | 与 .类 | 是 完全 等 价 的 ， 那 
么 它 就 会 用 后 者 替换 前 者 。 

消除 不 需要 的 字符 组 

只 包含 单个 字符 的 字符 组 有 点 儿 多 余 ， 因 为 它 要 按照 字符 组 来 处 
理 ， 而 这 么 做 完全 没有 必要 。 所 以 ， 聪 明 的 实现 方式 会 在 内 部 把 [.] 
转换 为 \，。 

忽略 优先 量词 之 后 的 字符 优化 

忽略 优先 量词 ， 例 如 ”(. 炎 ? ) "| 中 的 ‘*?，， 在 处 理 时 ， 引 
擎 通常 必须 在 量词 作用 的 对 象 (点 号 ) 和 ' ”| 之 后 的 字符 之 间 切 换 。 
因为 种 种 原因 ， 忽 略 优先 量词 通常 比 匹 配 优先 量词 要 慢 ， 尤 其 是 对 上 
文中 “化 简 量 词 优化 ”的 匹配 优先 限定 结构 来 说 ， 更 是 如 此 。 另 一 个 原 
因 是 ， 如 果 名 上 略 优先 量词 在 捕获 型 括号 之 内 ， 探 制 权 就 必须 在 括号 内 
外 切换 ， 这 样 会 带 来 额外 的 开销 。 

所 以 这 种 优化 的 原理 是 ， 如 果 文 字 字 符 跟 在 忽略 优先 量词 之 后 ， 
只 要 引 敬 没有 触及 那个 文字 字符 ， 忽 略 优先 量词 可 以 作为 普通 的 匹配 
优先 量词 来 处 理 。 所 以 ， 包 含 此 优化 的 实现 方式 在 这 种 情况 下 会 切换 
到 特殊 的 忽略 优先 量词 ， 迅 速 检 测 目标 文本 中 的 文字 字符 ， 在 遇 到 此 
文字 字符 之 前 ， 跳 过 常规 的 “忽略 ”状态 。 


此 优化 还 有 各 种 其 他 形式 ， 例 如 预 查 一 组 字符 ， 而 不 是 特殊 的 一 
个 字符 (GN, MATT) Cx?) ULP T", 这 有 点 类 似 
前 面 介 绍 的 开头 字符 识别 优化 ) 。 


理解 本 章 中 的 性 能 测试 


本 章 的 大 多 数 性 能 测试 给 出 的 是 某 种 语言 的 相对 结果 。 例 如 ， 第 248 页 我 提 到 一 种 优 
化 过 结构 能 比 另 一 种 未 优化 的 结构 快 10% ,至 少 在 Sun i) Java regex package 中 是 这 样 ， 
在 .NET 中 ， 丙 者 之 间 的 差异 是 25 倍 ， 在 PCRE 中 ,是 150 倍 。 在 Perl 中 ， 两 者 是 一 
样 的 (也 就 是 ， 它 们 的 速度 是 相同 的 ) 。 


那么 ， 你 能 够 从 中 推导 出 不 同 语言 之 间 的 相对 如 度 吗 ? 显然 不 能 。PCRE 中 150 售 的 
性 能 提升 意味 着 优化 执行 的 效果 特别 好 ， 相 对 其 他 语言 或 者 意味 着 未 优化 的 版 本 如 
度 很 慢 , 在 大 部 分 中 ， 我 几乎 没有 提 到 语言 之 间 的 计时 间 题 ， 因 为 它们 是 语言 开发 人 


员 瘦 论 的 话题 ， 

不 过 还 是 有 一 点 值得 一 看 ,就 是 Java 的 10% 和 PCRE 的 1S0 倍 背后 的 细节 ,看 起 来 PCRE 
中 未 优化 的 (222) TRA Java 的 TU11 ,不 过 优化 的 ," 要 快 13 fh, Java fo Ruby 
的 优化 版 本 建 度 相 同 ， 但 是 Ruby 的 未 优化 版 本 比 Java 的 要 慢 40%。Ruby 的 未 优化 版 
本 只 比 Python 的 未 优化 版 本 慢 10% ,但 是 Python 的 优化 版 本 比 Ruby 的 优化 牙 本 快 20 
te, 

所 有 这 些 都 比 Perl 的 要 慢 。Perl 的 优化 和 未 优化 版 本 都 比 Python 最 快 的 版 本 快 10%。 
请 注意 ， 每 种 语言 都 有 自己 的 强项 ， 这 些 数 字 只 是 针对 某 个 具体 的 测试 情况 而 言 的 ， 


“过 度 ” 回 渊 检测 

第 226 页 的 “实测 ”揭示 的 问题 是 ，' (+) *, 之 类 的 量词 结合 结 
构 ， 能 够 制造 指数 级 的 回 滴 。 避 免 这 种 情况 的 简单 办 法 就 是 限定 回 济 
的 次 数 ， 在 “ 超 限 ”时 停止 匹配 。 在 某 些 实际 情况 中 这 非常 有 用 ,但 是 
它 也 为 正则 表达 式 能 够 应 用 的 文本 人 为 设置 了 限制 。 

例如 ， 如 果 上 限 是 10 000 次 回溯 ，“. 关 ? ， 就 不 能 匹配 长 于 10 000 
的 字符 ， 因 为 每 个 匹配 的 字符 都 对 应 一 次 回溯 。 这 种 情况 并 不 罕见 ， 
尤其 在 处 理 Web 页 时 更 是 如 此 ， 所 以 这 种 限制 非常 糟糕 。 


出 于 不 同 的 原因 ， 某 些 实现 方式 限制 了 回 渊 堆栈 的 大 小 (也 就 是 
同时 能 够 保存 的 状态 的 上 限 ) 。 例 如 ，Python 的 上 限 是 10 000。 就 像 回 
溯 上 限 一 样 ， 这 也 会 限制 正则 表达 式 所 能 处 理 的 文本 的 长 度 。 

因为 存在 这 个 问题 ， 本 书 中 的 某 些 性 能 测试 构建 起 来 非常 困难 。 
为 了 获得 最 准确 的 结果 ， 性 能 测试 中 计时 部 分 应 该 尽 可 能 多 地 完成 正 
则 表达 式 的 匹配 ， 所 以 我 创建 了 极 长 的 字符 串 ， 比 较 例 如 ” Cx) 
的 
执行 时 间 。 为 了 保证 结果 有 意义 ， 我 必须 限制 字符 串 的 长 度 ， 以 避免 
回溯 计数 或 者 堆栈 大 小 的 限制 。 你 可 以 在 239 页 看 到 这 个 例子 。 

避免 指数 级 (也 就 是 超 线性 super-linear) 匹配 

避免 无 休止 的 指数 级 匹配 的 更 好 办 法 是 ， 在 匹配 等 试 进 入 超 线性 
状态 时 进行 检测 。 这 样 就 能 做 些 额外 的 工作 ， 来 记录 每 个 量词 对 应 的 
子 表达 式 壬 试 匹 配 的 位 置 ， 绕 过 重复 尝试 。 

实际 上 ， 超 线性 匹配 发 生 时 是 很 容易 检测 出 来 的 。 单 个 量词 “ 返 
代 ”(〈 循 环 ) 的 次 数 不 应 该 比 目 标 字 符 串 的 字符 数量 更 多 。 否 则 肯定 发 
生 了 指数 级 匹配 。 如 果 根 据 这 个 线索 发 现 匹配 已 经 无 法 终止 ， 检 测 和 
消除 元 余 的 匹配 是 更 复杂 的 问题 ， 但 是 因为 多 选 分 文 匹配 次 数 太 多 ， 
这 人 么 做 或 许 值得 。 

仿 测 超 线性 匹配 并 迅速 报告 匹配 失败 的 副作用 (side effect) 之 一 
歼 是 ， 真 正 缺 乏 效 率 的 正则 表达 式 并 不 会 体现 出 效率 的 低下 。 即 使 使 
用 这 种 优化 ， 避 免 了 指数 级 匹配 ， 所 人 花 的 时 间 也 远 远 高 于 真正 需要 的 
时 间 ， 但 是 不 会 慢 到 很 容易 被 用 户 发 现 (不 像 是 等 到 太阳 落 山 一 样 漫 
长 ， 而 可 能 是 多 消耗 100s， 对 我 们 来 说 这 很 快 ， 但 对 计算 机 来 说 很 漫 
I): © 

当然 ， 忌 的 来 看 可 能 还 是 利 大 于 次 。 许 多 人 不 天 心 正 则 表达 式 的 
效率 一 一 它们 对 正则 表达 式 怀 着 一 种 妨 惯 心理 ， 只 希望 能 完成 任务 ， 
而 不 关心 如 何 完成 。 (你 可 能 没 见 过 这 种 情况 ， 但 是 我 希望 这 本 书 能 
够 加 强 你 的 信心 ， 就 像 标 题 说 的 那样 ， 精 通 正则 表达 式 ) 。 

使 用 占有 优先 量词 削减 状态 

由 正常 量词 约束 的 对 象 匹配 之 后 ， 会 保留 若干 “在 此 处 不 进行 匹 
配 * 的 状态 (量词 每 一 轮 迭 代 创 建 一 个 状态 。 占有 优先 量词 (142) 


则 不 会 保留 这 些 状 仿 。 具体 做 法 有 两 种 ， 一 

种 是 在 量词 全 部 竹 试 完成 之 后 抛弃 所 有 备用 状态 ， 效 率 更 高 的 办 
法 是 每 一 轮 侈 代 时 抛弃 上 一 轮 的 备用 状态 (匹配 时 总 需要 保存 一 个 状 
态 ， 这 样 在 量词 无 法 继续 匹配 的 时 候 引 擎 还 能 继续 运转 ) 。 

在 送 代 中 即时 抛弃 状态 的 做 法 效率 更 高 ， 因 为 所 占 的 内 存 更 少 。 
应 用 .大 | 会 在 匹配 每 个 字符 时 创造 一 个 状态 ， 如 果 字 符 串 很 长 ， 会 
占用 大 量 的 内 存 。 


目 动 “占有 优先 转换 、 


在 第 4 齐 中 (7171), ANA \we AER ‘Subject’, wu 匹配 到 字符 串 末 尾 时 ， 
最 后 的 冒号 无 法 匹配 ， 所 以 回溯 机 制 会 强迫 Vw+! 逐 个 交还 字符 ， 在 每 个 位 置 对 :1 进 
行 徒 劳 的 党 试 。 在 这 个 例子 中 ， 如 果 使 用 固化 分 组 “(3?>\w+) :1 或 者 占有 优先 量词 
^\Wwt+ ;J， 能 够 避免 无 谓 的 劳动 ，。 


聪明 的 实现 方式 应 该 能 自动 做 到 这 一 点 。 编 译 正 则 表达 式 时 ， 引 擎 会 检查 量词 之 后 的 
元 素 能 匹配 的 字符 是 否 与 量词 作用 元 素 匹 配 的 字符 重合 ， 如 果 不 重合 ， 量 词 就 应 该 自 
动 转变 为 占有 优先 的 形式 。 

就 我 所 知 ， 目 前 还 没有 系统 采用 这 种 优化 ， 在 这 里 列 出 来 ， 是 鼓励 开发 人 员 考 虑 这 个 
问题 ， 因 为 我 坚信 它 能 带 来 实质 性 的 收益 ， 


量词 等 价 转 换 

有 人 习惯 用 dddd ， 也 有 人 则 习惯 使 用 量词 dt{4} | 。 两 者 的 
效率 有 差别 吗 ? 对 NFA 来 说 ， 答 案 几 乎 是 肯定 的 ， 但 工具 不 同 ， 结 果 
也 不 同 。 如 果 对 量词 做 了 优化 ， 则 '\d{4}, 会 更 快 一 些 ， 除 非 未 使 用 量 
词 的 正则 表达 式 能 够 进行 更 多 的 优化 。 听 起 来 有 点 迷惑 ? 但 事实 确实 
如 此 。 

我 的 测试 结果 表明 ，Perl、Python、PHP/PCRE 和 .NET 中 ， 
i\d{4} ,大 概要 快 20% 。 但 是 ， 如 果 使 用 Ruby 和 Sun 的 Java regex 
package, ‘\d\d\d\d, 则 要 快 上 好 几 倍 。 所 以 ， 看 起 来 量词 在 某 些 工 具 
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单 。 


比较 “==== |, 和 '={4},。 这 个 例子 与 上 面 的 截然 不 同 ， 因 为 此 时 
重复 的 是 确定 的 文字 字符 ， 而 直接 使 用 === 引擎 更 容易 将 其 识别 为 
一 个 文字 字符 串 。 如 果 是 ， 支 持 的 高 效 的 开头 字符 /字符 组 / 子 串 识别 优 
化 (247) 就 可 以 派 上 用 场 。 对 Python 和 Sun 的 Java regex package 来 
说 ， 情 况 正 是 如 此 ， ==== | th '={4}, 快 上 100 倍 。 

Perl、Ruby 和 .NET 的 优化 手段 更 高 级 ， 它 们 不 会 区 分 “==== 和 
={4} |， ， 结 果 ， 两 者 是 一 样 快 的 〈 而 且 都 比 dddd #0 \d{4}, 的 例 
子 快 成 百 上 千 倍 ) ° 

需求 识别 

男 一 种 人 简单 的 优化 措施 是 ，3 引 擎 会 预先 取消 它 认 为 对 匹配 结 采 没 
有 价值 的 (例如 ， 在 不 必 捕 获 文 本 的 地 方 使 用 了 捕获 型 括号 ) 工作 。 
识别 能 力 在 很 大 程度 上 依赖 于 编程 语言 ， 不 过 这 种 优化 实现 起 来 也 可 
以 很 容易 ， 如 果 在 匹配 时 能 够 指定 某 些 选项 ， 束 能 禁止 某 些 代 价 高 昂 
的 特性 。 

Tal 束 能 够 进行 这 种 优化 。 除 非 用 户 明 确 要 求 ， 否 则 它 的 捕获 型 括 
号 并 不 会 真正 捕获 文本 。 而 .NET 的 正则 表达 式 提 供 了 一 个 选项 ， 容 许 
程序 员 指 定 捕 获 型 括号 是 否 需 要 捕获 。 
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Techniques for Faster Expressions 

之 前 的 数 页 介绍 了 我 见 过 的 传统 型 NFA 引 擎 使 用 的 各 种 优化 。 没 
有 任何 程序 同时 具备 所 有 这 些 优 化 ， 而 且 无 论 你 爱 用 的 程序 目前 文 持 
哪些 ， 和 情况 也 会 随时 间 而 改变 。 但 是 ， 理 解 可 能 进行 的 各 种 优化 ， 我 
们 束 能 写 出 效率 更 高 的 表达 式 。 如 果 你 还 理解 传统 型 NFA 的 工作 原 
理 ， 把 这 些 知 识 结合 起 来 ， 就 可 以 从 二 方面 获 益 : 

。 编 写 适 于 优化 的 正则 表达 式 编写 适应 已 知 (或 者 未 来 会 支持 的 ) 
优化 措施 的 表达 式 。 举 例 来 说 ， xx 大 | te x+ 能 适用 的 优化 措施 更 
多 ， 例 如 检查 目标 字符 串 中 必须 出 现 的 字符 (245) ， 或 者 开头 字符 
识别 (247) 。 

。 模 拟 优化 有 时 候 我 们 知道 所 用 的 程序 没有 特殊 的 优化 措施 ， 但 是 
通过 手工 模拟 ， 我 们 还 是 能 节省 大 量 的 时 间 。 比 如 在 thislthat 之 前 添 
加 (2 =t) ) ， 这 样 即使 系统 无 法 预知 任何 匹配 结果 必须 以 中 开 头 ， 
我 们 还 是 能 模拟 开头 字符 识别 (247) ， 下 文 还 会 深入 讨论 这 个 例 
子 。 


e 主 导 引 警 的 匹配 使 用 关于 传统 型 NFA 引擎 工作 原理 的 知识 ， 能 
够 主导 引擎 更 快 地 匹配 。 拿 "thislthat | 来 说 。 每 个 多 选 分 支 都 以 "th 
开头 ， 如 果 第 一 个 多 选 分 文 不 能 匹配 [th ， 第 二 个 显然 也 不 行 ， 所 以 
不 必 白 费 工 夫 。 因 此 ， 我 们 可 以 使 用 h (? :iat ，。 这 样 ， th， 
就 只 要 检查 一 裔 ， 只 由 在 确实 需要 的 时 候 才 会 用 到 代价 相对 噩 昂 的 多 
选 结构 功能 。 而 且 ， ‘th (2+ islat) ， 开头 的 纯 文字 字符 就 是 “th, 
所 以 存在 进行 其 他 优化 的 可 能 。 

重要 的 是 认识 到 ， 效 率 和 优化 有 时 候 处 理 起 来 比较 麻烦 。 在 阅读 
本 下 其 他 内 容 的 时 候 ， 请 不 要 了 乐 记 下 面 儿 点 : 

ej 进 行 看 来 确实 有 大助 的 改动 ， 有 时 反而 事与愿违 ， 因 为 这 样 可 能 
禁止 了 你 所 不 知道 的 ， 已 经 生效 的 其 他 优化 。 

e 添 加 一 些 内 容 模拟 你 知道 的 不 存在 的 优化 措施 ， 可 能 出 现 的 情况 
是 ， 处 理 那 些 添 加 内 容 的 时 间 多 于 节省 下 来 的 时 间 。 


e 深 加 一 些 内 容 模 拟 一 个 目前 未 提供 的 优化 ， 如 来 将 来 升级 以 后 的 
软件 支持 此 优化 ， 反 而 会 影响 或 者 重复 真正 的 优化 。 

e 同 样 ， 控 制 表 达 式 笑 试 触发 菜 种 当前 可 用 的 优化 ， 将 来 某 些 软件 
升级 之 后 可 能 无 法 进行 某 些 更 高 级 的 优化 。 

e 力 提高 效率 修改 表达 式 ， 可 能 导致 表达 式 难 以 理解 和 维护 。 

e 具 体 的 修改 带 来 的 好 处 (或 是 坏处 ) 的 程度 ， 基 本 上 取决 于 表达 
式 应 用 的 数据 。 对 某 类 数据 来 说 有 益 的 修改 ， 可 能 对 为 一 类 数据 来 说 
征 有 害 的 。 

我 来 举 个 极端 点 的 例子 ， 你 在 Perl 脚本 中 找到 ” (000/999) $), 
并 决定 把 这 些 捕获 型 括号 蔡 换 为 非 捕获 型 括号 。 你 觉得 这 样 速度 更 
快 ， 因 为 不 再 需要 捕获 文本 的 开销 。 但 是 奇怪 的 是 ， 这 个 微小 而 且 看 
起 来 有 益 的 改动 反而 会 把 表达 式 的 速度 降低 许多 个 数量 级 〈 比 之 前 慢 
JLT) o BARRE? 原来 在 这 里 有 若干 因素 共同 作用 ， 使 用 非 
捕获 型 括号 时 ， 字 符 串 结束 / 行 锚 点 优化 (246) 会 被 关闭 。 我 不 希望 
劝阻 读者 在 Perl 中 使 用 捕获 型 括号 一 一 绝 大 多 数 情 况 下 ， 使 用 他 们 都 是 
有 荔 的 ， 但 站 在 某 些 情况 下 ， 会 市 来 灾难 性 的 后 采 。 

所 以 ， 检 测 并 性 能 测试 你 期 望 实际 应 用 的 同类 型 的 数据 ， 有 助 于 
判断 改动 是 否 值得 ， 但 是 ， 你 仍然 必须 目 己 权衡 众多 因素 。 束 说 这 人 么 
多 ， 下 面 我 开始 讲解 一 些 技 巧 ， 你 能 够 用 它们 来 挖掘 引擎 效率 的 最 后 
一 点 潜能 。 


常识 性 优化 


Common Sense Techniques 

只 需要 依靠 常识 ， 就 能 进行 一 些 极 有 成 效 的 优化 。 

避免 重新 编译 

编译 和 定义 正则 表达 式 的 次 数 应 该 尽 可 能 的 少 。 在 面向 对 象 式 处 
SE (95) ， 用户 能 够 精确 控制 这 一 点 。 举 例 来 说 ， 如 果 你 希望 在 
循环 中 应 用 正则 表达 式 ， 就 应 该 在 循环 外 创建 这 个 正则 表达 式 对 象 ， 
在 循环 中 重复 使 用 。 


在 函数 式 处 理 一 一 例如 GNU Emacs 和 Td 一 一 的 情况 下 ， 应 尽量 保 
rene ne eae ee irate 
244) 。 

如 果 使 用 的 是 集成 式 处 理 ， 例 如 Perl， 应 尽量 避免 在 循环 内 的 正则 
表达 式 中 使 用 变量 插值 ， 因 为 这 样 每 次 循环 都 需要 重新 生成 正则 表达 
ee 
348) ° 

使 用 非 捕获 型 括号 

如 果 不 需 要 引用 括号 内 的 文本 ， 请 使 用 非 捕 获 型 括号 
L (? ; ...) ) (45) 。 这 样 不 但 能 够 节省 捕获 的 时 间 ， 而 且 会 减少 
回溯 使 用 的 状态 的 数量 ， 从 两 方面 提高 速度 。 而 且 能 够 进行 进一步 的 
优化 ， 例 如 消除 无 必要 括号 (248) 。 

不 要 滥用 括号 

在 需要 的 时 候 使 用 括号 ， 在 其 他 时 候 使 用 括号 会 阻止 某 些 优化 措 
施 。 除 非 你 需要 知道 .类 ， 匹配 的 最 后 一 个 字符 ， 和 否则 请 不 要 使 用 
l 兴 )。 这 似乎 很 显而易见 ， 但 是 别 忘 了 ， 本 节 的 标题 是 “常识 性 
优化 ”。 

不 要 滥用 字符 组 

这 一 点 看 起 来 也 很 显而易见 ， 但 是 我 经 常 在 缺乏 经 验 的 程序 员 的 
表达 式 中 看 到 AKL: ] | 。 我 不 知道 为 什么 他 们 会 使 用 只 包含 单个 字 
符 的 字符 组 一 一 这 样 需要 付出 处 理 字符 组 的 代价 ， 但 并 不 需要 用 到 字 
符 组 提供 的 多 字符 匹配 功能 。 我 认为 ， 当 一 个 字符 是 元 字符 时 一 一 例 
如 『[] 或 者 '[ 淡 ]，， 可 能 作者 不 知道 通过 转 义 把 它们 转换 为 \.， 和 
\ 光 ，。 我 经 常 在 宽松 排列 模式 (111) 下 见 到 它们 与 空白 字符 一 起 
出 现 。 

同样 ， 读 过 本 书 第 一 版 的 Perl 用 户 可 能 有 时 候 写 出 AFRO] 
[Mm]: ，， 而 不 是 用 不 区 分 大 小 写 的 Arom: ，。 老 版 本 的 Perl 在 进 
行 不 区 分 大 小 写 的 匹配 时 效率 很 低 ， 所 以 我 推荐 使 用 字符 组 。 但 现在 
这 种 做 法 已 不 再 适用 ， 因 为 不 区 分 大 小 写 匹 配 效 率 低 下 的 问题 在 好 几 
年 前 就 修正 了 。 


使 用 起 始 锚 点 
除非 是 极其 罕见 的 情况 ， 否 则 以 .类 ) 开头 的 正则 表达 式 都 应 该 在 
最 前 面 添加 人 ^ 或 者 \Aj (129) 。 如 果 这 个 正则 表达 式 在 某 个 字符 
捉 的 开头 不 能 匹配 ， 那 么 显然 在 其 他 位 置 它 也 不 能 匹配 。 深 加 销 扣 
(无 论 是 手工 添加 ， 还 是 通过 优化 自动 添加 246) 都 能 够 配合 开头 字 
符 / 字 符 串 / 字 串 识别 优化 ， 克 省 大 量 不 必要 的 工作 。 


将 文字 文本 独立 出 来 


Expose Literal Text 

我 们 在 本 章 见 过 的 许多 局 部 优化 ， 主 要 是 依靠 正则 引擎 的 能 力 来 
识别 出 匹配 成 功 必 须 的 一 些 文字 文本 。 某 些 引 擎 在 这 一 点 上 做 得 比 其 
他 引 敬 要 好 ， 所 以 这 里 提供 了 一 些 手 动 优 化 措施 ， 有 助 于 “暴露 "文字 
文本 ， 提 高 引擎 识别 的 可 能 性 ， 配 合 与 文字 文本 有 关 的 优化 措施 。 

从 量词 中 “提取 ”必须 的 元 素 

用 xx 火 | 替代 'x+, 能 够 暴露 匹配 必须 的 xr。 同样 的 道理 ，'- 
{5，7} 可 以 写作 “------{0, 2}, ° 

“提取 ”多 选 结构 开头 的 必须 元 素 

用 th (? : isat) | 替代 (2 : thislthat) | ， 就 能 暴露 出 必须 的 
‘th, 。 如 果 不 同 多 选 分 支 的 结尾 部 分 相同 ， 我 们 也 可 以 从 右面 “ 提 
Hu, flan! (? : optim|standard) ization, 。 我 们 会 在 下 一 节 中 看 到 ， 
如 果 提 取出 来 的 部 分 包括 锚 点 ， 这 么 做 就 非常 有 价值 。 


将 锚 点 独立 出 来 


Expose Anchors 

某 些 效果 明显 的 内 部 优化 措施 是 利用 锚 点 (例如 '^、 $, 和 
AG) ， 把 表达 式 “ 绑 定 ” 在 目标 字符 串 的 某 一 端 。 使 用 这 些 优化 时 ， 
某 些 引擎 的 效果 不 如 其 他 引擎 ， 但 是 有 一 些 技巧 能 够 提供 帮助 。 

在 表达 式 前 面 独立 出 ^ 和 \G 


TA (? : abcl123) ， 和 “Aabc|^123 在 逻辑 上 是 等 价 的 ， 但 是 许多 
正则 引 警 只 会 对 第 一 个 表达 式 使 用 开头 字符 /字符 串 / 字 串 识别 优化 (e 
246) 。 所 以 ， 第 一 种 办 法 的 效率 要 高 得 多 。PCRE (还 包括 使 用 它 的 
工具 ) 中 两 者 的 效率 是 一 样 的 ， 但 是 大 多 数 其 他 NFA 工 具 中 第 一 个 表 
达 式 的 效率 更 高 。 

比较 ” (habc) ， 和 ^ (abc) ,我 们 能 发 现 另 一 个 区 别 。 前 者 的 设 
置 并 不 很 合适 ， 销 点 “ 注 ” 在 捕获 型 括号 内 ， 在 检测 销 点 之 前 ， 必 须 首 
先进 入 括号 ， 在 许多 系统 上 ， 这 样 做 的 效率 很 低 。 某 些 系统 (PCRE ` 
Perl、.NET) 中 两 者 的 效率 相当 ， 但 是 在 其 他 系统 中 (Ruby 和 Sun 的 
Java regex package) 只 会 对 后 者 进行 优化 。 

Python 似乎 不 会 进行 铺 点 优化 ， 所 以 这 些 技巧 目前 不 适用 于 
Python。 当 然 ， 本 章 介 绍 的 大 多 数 优化 都 不 适用 于 Tcl (243) ° 

在 表达 式 末尾 独立 出 $ 

此 措施 与 上 一 节 的 优化 思想 非常 类 似 ， 虽 然 “abc$l123$ ， 和 
| (2; abcl123) $ ,在 逻辑 上 是 等 价 的 ， 但 优化 的 表现 可 能 不 同 。 目 
前 ， 这 种 优化 还 只 适用 于 Perl， 因 为 现在 只 有 Perl 提供 了 “字符 串 结 束 / 
行 锚 点 优化 ”〈E246) 。 优 化 只 对 “【〔...|...) $ 起 作用 , WT S.. 
$) ， 不 起 作用 。 


忽略 优先 还 是 匹配 优先 ? 具体 情况 具体 分 析 


Lazy Versus Greedy:Be Specific 

通常 ， 使 用 忽略 优先 量词 还 是 匹配 优先 量词 取决 于 正则 表达 式 的 
具体 需求 。 举 例 来 说 ， [Ak | 完全 不 同 于 ^. 尖 ?: |, AAR 
配 到 最 后 的 冒号 ， 而 后 者 匹配 到 第 一 个 冒号 。 但 是 ， 如 果 目 标 数 据 中 
只 包含 一 个 分 号 ， 两 个 表达 式 就 没有 区 别 了 (匹配 到 唯一 的 分 号 为 
Ik) ， 所 以 选择 速度 更 快 的 表达 式 可 能 更 合适 。 

不 过 并 不 是 任何 时 候 优 劣 都 如 此 分 明 ， 大 的 原则 是 ， 如 果 目 标 字 
从 串 很 长 ， 而 你 认为 分 号 会 比较 接近 字符 串 的 开头 ， 束 使 用 忽略 优先 
量词 ， 这 样 引 擎 能 更 快 地 找到 分 号 。 如 果 你 认为 分 号 在 接近 字符 串 末 
尾 的 位 置 ， 就 使 用 匹配 优先 量词 。 如 果 数 据 是 随机 的 ， 叉 不 知道 分 号 


究竟 会 靠近 哪 一 头 ， 就 使 用 匹配 优先 的 量词 ， 因 为 它们 的 优化 一 般 来 
说 都 要 比 其 他 量词 要 好 ， 尤 其 是 表达 式 的 后 面部 分 禁止 进行 “忽略 优先 
量词 之 后 的 字符 优化 ”〈\G248) 时 ， 更 是 如 此 。 

如 果 待 匹配 的 字符 串 很 得， 差别 就 不 那么 明显 了 。 这 时 候 ， 两 个 
正则 表达 式 的 速度 都 很 快 ， 不 过 如 果 你 很 在 乎 那 一 点 点 速度 差别 ， 就 
对 典型 数据 做 个 性 能 测试 吧 。 

个 与 此 有 关 的 问题 是 ， 在 忽略 优先 量词 和 排除 型 字符 组 之 间 
(Taw? : | 与 AIA: |e: | ) ， 应 该 如 何 选择 ? 答案 还 是 取决 于 所 
使 用 的 编程 语言 和 应 用 的 数据 ， 但 是 对 大 多 数 引擎 来 说 ， 排 除 型 字符 
组 的 效率 比 忽 略 优先 量词 高 的 多 。Perl 是 个 例外 ， 因 为 它 能 对 忽略 优先 
量词 之 后 的 字符 进行 优化 。 


拆 分 正则 表达 式 


Split Into Multiple Regular Expressions 

有 时 候 ， 应 用 多 个 小 正则 表达 式 的 速度 比 一 个 大 正则 表达 式 要 快 
得 多 。 举 个 极 闯 的 例子 ， 如 条 你 硕 望 检查 一 个 长 字符 串 中 是 否 包含 月 
份 的 名 字 ， 依 次 检查 “January ` ‘February, 、「March | 之 类 的 速 
RE, pE 'January|February|March|..., 快 得 多 。 因 为 对 后 者 来 说 ， 不 存 
在 匹配 成 功 必 须 的 文字 内 容 ， 所 以 不 能 进行 “内 般 文 字 字 符 串 检查 优 
A£” (247) 。“ 大 而 全 ”的 正则 表达 式 必须 在 目标 文本 中 的 每 个 位 置 测 
试 所 有 的 目 表 达 式 ， 速 度 相当 慢 。 

撰写 本 章 时 ， 我 遇 到 了 一 个 有 趣 的 情况 。 用 Perl 写 一 个 数据 处 理 
模块 时 ， 我 意识 到 客户 端 程序 有 个 bug， 导 致 它 发 送 奇 怪 的 数据 ， 类 
(‘HASH (0x80f60ac) “而 不 是 真正 的 数据 。 所 以 ， 我 打算 修正 这 个 模 
块 ， 寻 找 怪异 数据 的 来 源 ， 并 报告 错误 。 我 使 用 的 正则 表达 式 相 当 直 
H: "b (? : SCALAR|ARRAY|...JHASH) \ (Ox[0-9a-fA-F]+\) | ° 

在 这 里 ， 效 率 是 非常 关键 的 。 这 个 表达 式 的 速度 如 何 ?” Pen 的 调试 
模式 (debugging mode) 能 够 告诉 你 它 对 特定 表达 式 使 用 的 某 些 优化 
(361) ， 所 以 我 进行 了 检查 。 我 希望 启用 了 预 查 必 须 字符 /字符 串 优 
W (245) ， 因 为 足够 先进 的 引 警 应 该 能 够 明白 ′ (0x 是 任何 匹配 所 
必须 的 。 因 为 这 个 正则 表达 式 所 应 用 的 数据 几乎 不 包含 ' (0x’， 我 相信 


MAR TE ST TB] o PEE, Perl ACER, ATURE RR AE 
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文 。 速 度 达 不 到 我 的 要 求 。 

因为 正在 人 研究 和 撰写 与 优化 有 关 的 内 容 ， 所 以 我 正 思 苗 想 ， 这 个 
表达 陈 应 该 怎样 写 才 能 得 到 优化 。 一 个 办 法 是 以 复杂 的 方式 
'\ (0x(?<=(?:SCALAR|:… |HASH) \ (0x) [0-9a-fA-F]+\) | 。 这 样 ， 一 旦 


M (Ox, 匹配 之 后 ， 肯 定型 顺序 环视 〈 下 画 线 标注 部 分 ) 就 能 确保 之 前 
匹配 的 是 需要 的 文本 ， 再 检查 之 后 的 文本 是 否 符合 期 望 。 费 这 番 周 折 
的 原因 在 于 ， 让 正则 表达 式 获得 必须 出 现 的 文字 文本 "\ (ox, ， 这 样 就 
能 进行 多 种 优化 。 尤 其 是 ， 我 希望 进行 预 查 必 须 字符 串 优 化 ， 以 及 开 
头 字符 /字符 组 / 子 串 识别 优化 (247) 。 我 确定 这 样 速度 会 很 快 ， 但 
是 Per 不 支持 长 度 不 定 的 逆序 环视 (0133) ， 所 以 我 得 想 办 法 来 绕 开 


mr 


L o 
不 过 我 发 觉 ， 如 果 Perl 不 会 自动 预 查 \ (0x  ， 我 可 以 自己 动手 : 
if ($data =~ m/\(0x/ 
and 
Sdata =~ m/(?:SCALAR|ARRAY|...| HASH) \ (Ox [0-9a-fA-F]+\) /) 


# 错误 数据 ， 报 警 


T\ (Ox, 的 检查 事实 上 会 过 滤 大 部 分 文本 ， 相 对 较 慢 的 完整 正则 
表达 式 只 对 有 可 能 匹配 的 行进 行 检测 ， 这 样 就 在 效率 (非常 高 ) 和 可 
读 性 (非常 高 ;之 间 达 到 了 完美 的 平衡 ( 注 7) 


模拟 开头 字符 识别 


Mimic Initial-Character Discrimination 

如 果 你 的 实现 方式 没有 进行 开头 字符 识别 优化 (247) ， 则 可 以 
亲自 动手 ， 在 表达 式 的 开头 添加 合适 的 环视 结构 (133) 。 在 正则 表 
达 式 的 其 他 部 分 匹配 之 前 ， 环 视 结构 可 以 进行 “ 预 禁 ”， 选 择 合适 的 开 
台 位 置 。 


如 果 正 则 表达 式 为 'JanlFebl...|Dec，， 对 应 的 就 是 ”(? = 
[JFMASOND]) (? : Jan|Feb|...|Dec) ，。 开 头 的 DJFMASOND] ft 
表 了 英文 中 月 份 单 词 可 能 的 开始 字母 。 不 过 这 种 技巧 并 不 是 所 有 情况 
下 都 适用 的 ， 因 为 ， 环 视 结构 的 开销 可 能 大 于 节省 的 时 间 。 在 这 个 例 
子 中 ， 因 为 多 数 多 选 分 支 都 可 能 匹配 失败 ， 预 查 对 我 测试 的 大 多 数 系 
统 (Java、Perl、Python、Ruby、.NET) 都 是 有 用 的 ， 因 为 它们 都 不 能 
自动 从 Jan|Feb|...|Dec , 得 到 开头 的 UFMASOND] ° 

在 默认 情况 下 ，PHP/PCRE 并 不 会 进行 这 种 优化 ， 但 是 如 果 使 用 
PCRE 的 pcre_study 〈 也 残 是 PHP 中 的 模式 修 邑 符 S， 瑟 478) 则 可 以 。 而 
Tc 显然 能 够 完美 地 做 到 这 一 点 (243) ° 

如 果 正 则 引擎 能 自动 进行 JFEMASOND] 的 检测 ， 速 度 当 然 会 比 
用 户 手 工 指定 快 得 多 。 我 们 有 没有 办 法 让 引擎 自动 进行 检测 呢 ? 在 许 
多 系统 上 ， 我 们 可 以 用 下 面 这 个 复杂 得 要 命 的 表达 式 : 

| [JFMASOND](?:(? < =J)an|(? < =F)eb]...|(? <=D)ec) , 

我 可 不 指望 你 能 看 一 眼 就 明白 这 个 表达 式 ， 但 是 花 点 时 间 仔 细 琢 
麻 倒 是 很 值得 的 。 表 达 式 开头 的 字符 组 可 以 被 大 多 数 系 统 的 开头 字符 
识别 优化 所 利用 ， 这 样 传动 装置 就 能 够 高 效 地 预 查 UJFMASOND] ° 
如 果 目 标 字符 串 不 包含 匹配 字符 ， 结 果 会 比 原来 的 Jan|...|Dec | REF 
工 添 加 环视 功能 的 表达 式 要 快 。 但 是 ， 如 果 目 标 字 符 串 中 包含 许多 字 
符 组 能 够 匹配 的 字符 ， 那 么 额外 的 逆序 环视 可 能 反而 会 减 慢 匹 配 的 速 
度 。 最 主要 的 问题 是 ， 这 个 正则 表达 式 显然 很 难看 懂 。 但 是 ， 这 个 例 
子 倒是 很 有 意思 ， 也 很 启发 人 。 

不 要 在 Tdl 中 这 么 做 

上 面 的 优化 例子 其 实 降 低 了 表达 式 的 可 读 性 。243 页 的 补充 内 容 提 
到 ， 不 同形 式 的 正则 表达 式 在 Td 中 的 表现 是 相同 的 ， 所 以 在 Td 中 ， 大 
多 数 优 化 并 没有 意义 。 不 过 ， 有 个 例子 中 优化 确实 有 影响 。 根 据 我 的 
测试 ， 手 动 添 加 ' (2 =UFMASOND]) , 会 把 速度 降低 到 原来 的 
1/100 ° 

不 要 在 PHP 中 这 么 做 


之 前 我 们 已 经 提 到 过 ， 不 应 该 在 PHP 中 进行 优化 ， 因 为 我 们 能 够 使 
用 PHP 的 “study” 功 能 一 一 模式 修饰 符 S 一 一 来 启用 优化 。 详 见 第 10 章 第 
478 页 。 


使 用 固化 分 组 和 占有 优先 量词 


Use Atomic Grouping and Possessive Quantifiers 

在 许多 情况 下 ， 固 化 分 组 (139) 和 占有 优先 量词 (142) 能 够 
极 大 地 提高 匹配 速度 ， 而 且 它们 不 会 改变 匹配 结果 。 举 例 来 说 ， 如 果 
AA: ]+: | 中 的 冒号 第 一 次 尝试 时 无 法 匹配 ， 那 么 任何 回溯 其 实 都 是 
没有 意义 的 ， 因 为 根据 定义 ， 回 溯 “ 交 还 ”的 任何 字符 都 不 可 能 是 冒 
号 。 使 用 固化 分 组 ^ (? op: ]+) : | 或 者 占有 优先 量词 
‘AA: ++: | 就 能 够 直接 抛弃 备用 状态 ,或 者 根本 不 会 创造 多 少 备用 
状态 。 因 为 引擎 没有 内 容 状 态 可 以 回溯 ， 了 网 不 会 进行 不 必要 的 回调 
Fa 足够 聪明 的 引 警 能够 目 动 进行 这 种 优 
化 ) 。 

不 过 ， 我 必须 强调 ， 这 两 种 结构 运用 不 当 ， 就 会 在 不 经 意 间 改变 
匹配 结果 ， 所 以 必须 极为 小 心 。 如 果 不 用 人 类 : | 而 用 (>. 
类) : | ， 结 果 必 然 会 失败 。 整 行文 本 都 会 被 .大 | 匹配， 后 面 的 
"| 就 无 法 匹配 任何 字符 。 固 化 分 组 阻止 最 后 的 '，， 匹配 必须 进行 
的 回调 ， 所 以 匹配 必定 失败 。 


主导 引擎 的 匹配 


Lead the Engine to a Match 

提高 正则 表达 式 匹 配 效率 的 男 一 个 办 法 是 尽 可 能 准确 地 设置 匹配 
过 程 中 的 “控制 权 。 我 们 曾经 看 过 的 用 ‘th (? : isat) | 取代 
‘this|that, 的 例子 。 在 后 一 个 表达 式 中 ， 多 选 结构 获得 最 高 级 别 的 控制 
权 ， 而 在 前 一 个 表达 式 中 ， 相 对 代价 更 高 昂 的 多 选 结构 只 有 在 也 | E 
配 之 后 才 获 得 控制 权 。 


下 一 节 * 消 除 循 环 "是 这 种 技巧 的 高 级 形式 ， 此 处 再 介绍 些 简 单 的 
技巧 。 

将 最 可 能 匹配 的 多 选 分 支 放 在 前 头 

在 本 书 中 我 们 看 到 ， 许 多 时 候 多 选 分 支 的 摆 放 顺序 非常 重要 (o 
28、176、189、216) 。 在 这 些 情 况 下 ， 摆 放 顺 序 比 优化 更 重要 ， 但 相 
反 ， 如 果 顺 序 与 匹配 正确 无 关 ， 就 应 该 把 最 可 能 匹配 的 多 选 分 支 放 在 
首位 。 

举例 来 说 ， 在 匹配 主机 名 的 正则 表达 式 (205) 中 ， 有 人 可 能 > 
惯 把 后 缀 按照 字母 顺序 排序 ， 例 如 (? : aerolbizlcomlcoop|...) ，。 
不 过 ， 某 些 排 在 前 头 的 后 组 应 用 并 不 广泛 ， 匹 配 极 有 可 能 失败 ， 为 什 
么 要 把 他 们 排 在 前 头 呢 ? 如 果 按 照 分 布 数 量 的 排序 : | (? : 
comledulorg|net|...) , ， 更 有 可 能 获得 更 迅速 更 常见 的 匹配 。 

当然 ， 这 只 有 对 传统 型 NFA 引 警 才 适用 ， 而 且 只 有 存在 匹配 的 时 
候 才 适用 。 如 果 使 用 POSIX NFA， 或 是 不 存在 匹配 ， 此 时 所 有 的 多 选 
分 支 都 必须 检测 ， 所 以 顺序 是 无 关 紧 要 的 。 

将 结尾 部 分 分 散 到 多 选 结构 内 

接 下 来 我 们 比较 (? : comledul...l[a-zJ[a-z] ) \b ， 和 
icom\bljedu\b|...\bl[a-zj[a-zNb，。 在 后 一 个 表达 式 中 ， 多 选 结构 之 后 的 
Nb 被 分 散 到 每 个 多 选 分 支 。 可 能 的 收益 就 是 ， 它 可 能 容许 一 个 多 选 
分 支 能 够 匹配 ， 但 多 选 分 支 之 后 的 '\b, 可 能 导致 这 个 匹配 不 成 功 ， 把 
Nb 加 到 多 选 结构 之 内 ， 匹 配 失败 的 更 快 。 这 样 不 需要 退出 多 选 结构 
就 能 发 现 失败 。 

要 说 明 这 个 技巧 的 价值 ， 这 可 能 还 不 是 最 好 的 办 法 ， 因 为 它 只 是 
适用 于 一 种 特殊 情形 ， 即 多 选 分 支 可 能 能 够 匹配 ， 但 是 之 后 紧 接 的 字 
符 可 能 令 匹 配 失败 。 在 本 章 中 我 们 会 看 到 一 个 更 合适 的 例子 
考 280 页 关于 $OTHER 关 的 讨论 。 

这 个 优化 是 有 风险 的 。 切 记 ， 使 用 这 个 功能 时 要 小 心 ， 不 要 因此 
阻止 了 本 来 可 以 进行 的 其 他 优化 。 举 例 来 说 ， 如 果 " 分 散 的 ” 子 表达 式 
是 文字 文本 ， 那 么 把 (2: thislthat) : ) ,更换 为 this: |that: | 就 


Yo BN 
We 


BET ELFLA HOR” (255) 中 的 某 些 思想 。 各 种 优化 都 是 
平等 的 ， 所 以 在 优化 时 请 务必 小 心 ， 不 要 因 小 失 大 。 

在 能 够 进行 独立 结尾 销 点 (7256) 的 系统 上 把 正则 表达 式 末 尾 的 
S 分 散 ， 也 会 遇 到 这 种 问题 。 在 这 些 系统 上 ， | (? : comledul...) 
$, tk ‘com$ledu$|...$, 快 得 多 (我 测试 了 各 种 系统 ， 只 有 Perl 使 用 了 这 
种 优化 ) 。 


消除 循环 

Unrolling the Loop 

无 论 系 统 本 里 支持 蚊 样 的 优化 ， 最 重要 的 收益 或 许 还 是 来 目 于 对 
引擎 基本 工作 原理 的 理解 ， 和 编写 能 够 配合 引擎 工作 的 表达 式 。 所 
以 ， 既 然 我 们 已 经 考察 了 党 琐 的 细 入 ， 不 妨 登 符 入 室 ， 学 习 我 说 的 “ 消 
除 循 环 ” 的 技巧 。 对 某 些 音 用 的 表达 陈 来 说 ， 它 的 加 速效 果 很 明显 。 
例 来 说 ， 用 它 改造 本 章 开 头 (226) 会 进行 无 休止 匹配 的 表达 式 ， 
够 在 有 限 的 时 间 内 报告 匹配 失败 ， 而 如 果 能 够 匹配 ， 速 度 也 会 更 快 。 

此 处 说 的 “循环 ”采用 的 是 ” (this|that|...) 类 | 之 类 问题 中 星 号 代表 
的 意义 。 之 前 的 无 休止 匹配 “” VIP" ]+) 淡 ”| 其 实 就 属于 此 类 。 
如 果 无 法 匹配 ， 这 个 表达 式 需 要 近乎 无 限 的 时 间 进 行 尝试 ， 所 以 必须 
改进 。 

此 技巧 有 两 种 不 同 的 实现 途径 : 

1. 我 们 可 以 检查 ， 在 各 种 典型 匹配 中 ， | AAA" x 中 的 哪 
个 部 分 真正 匹配 成 功 了 ， 这 样 就 能 留 下 子 表达 式 的 痕迹 。 再 根据 刚刚 
发 现 的 模式 ， 重 新 构建 高 效 的 表达 式 。 这 个 (或 许 联系 不 那么 紧密 
的 ) 概念 模型 就 是 一 个 大 球 ， 它 表示 表达 式 ”〈...) xj, RERE 
本 上 滚动 。 C.) | 内 的 元 素 总 是 能 够 匹配 某 些 文本 ， 这 样 就 留 下 了 
痕迹 ， 就 好 像 是 把 脏 今 今 的 雪 球 在 地 毯 上 滚 过 去 一 样 。 

2. 男 一 个 办 法 是 ， 从 更 高 的 层面 考察 我 们 期 望 用 于 匹配 的 结构 。 然 
后 根据 我 们 认为 的 钊 见 情 形 ， 对 可 能 出 现 的 目标 字符 串 做 出 非 正 式 假 
设 。 从 这 个 角度 出 发 构建 有 效 的 表达 式 。 

无 论 采 取 哪 种 办 法 ， 得 到 的 表达 式 都 古 一 样 的 。 我 首先 讲解 第 一 
种 思路 ， 然 后 介绍 如 何 通 过 第 二 种 思路 取得 同样 的 结果 。 

为 了 你 证 例子 容易 看 刷 ， 并 尽 可 能 广泛 地 使 用 ， 我 会 使 用 
' (...) | 来 代替 所 有 括号 ， 如 果 程 序 支 持 非 捕获 型 括号 
l: ...) ) 能 够 支持 ， 使 用 它们 能 提高 效率 。 然 后 会 讲解 固化 分 组 

(139) 和 占有 优先 量词 (142) 的 使 用 。 


aie HE 


方法 1: 依据 经 验 构 建 正则 表达 式 


Method 1:Building a Regex From Past Experiences 
在 分 析 '"” OOM" +) 类" |, 时， 用 若干 具体 的 字符 串 来 检验 全 
e ei 举例 来 说 ， 如 果 目 标 字 人 符 串 是 ‘" 
i"，， 那 么 使 用 的 自 表达 式 就 是 '" ea " I+ k o 全 局 匹配 使 
eee '" o” RREZEN] rai, "]+| ， 然 后 是 末尾 的 


[ou 
J 


如 果 目 标 字 符 串 是 : 

" he said\ " hi there\ ”and left " 

对 应 的 表达 式 就 是 “"[^\"]+ 了 [人 ^\"]+ "J+" o FEES 
例子 里 以 及 表 6-2 中 ， 我 标记 了 对 应 的 正则 表达 式 ， 让 模式 更 显眼 。 如 
果 我 们 能 对 每 个 输入 字符 串 构造 特定 的 表达 式 当 然 很 好 。 这 不 可 能 ， 
但 我 们 能 够 找 出 一 些 常用 的 模式 ， 构 造 效 率 更 高 ， 又 不 失 通 用 性 的 正 
则 表达 式 。 

现在 来 看 表 6-2 前 面 的 四 个 例子 。 下 画 线 标注 的 部 分 表示 “一 个 转 义 
元 素 ， 然 后 是 更 多 的 正常 字符 ”。 这 就 是 关键 : 在 每 种 情况 下 ， 开 头 是 
引号 ， 然 后 是 [AN " ]+，， 然 后 是 若干 个 MNA] o AERE 


gj AVIE AAL ANVI 4 。 这 个 特殊 的 例子 说 明 ， 通 用 模式 可 以 用 


来 构建 许多 有 用 的 表达 式 。 
表 6-2， 消除 循环 的 具体 情况 


"hi there" wra\\e }4 " 
" ] US t one \ " he r e " wera \ \ ") 4 \\ ~ fa \ \ " ] 4 " 
J t J t } 
"some \"quoted\" things” |"(*\\"J+\Ve(*\\")+ a ANN") +" 
" W i th \" a \u an a \ "bh \ on " [ A\\ Mm) +\\ [ AV\ MDs \\ pa\\u ] + \\ [ A\\ M4 \\ fajin ] 4" 
\ Cai A N . ‘\ J . \ A J ei 1 \ . 人 J Oat .\ 


S AA 
" empty \ " \ " quot e " wea \ \ Why \ \ 5 \\ t [ A \ \ " ] 4" 


构造 通用 的 “消除 循环 ”解法 

在 匹配 双 引 号 字符 串 时 ， 引 号 目 身 和 转 义 和 糙 线 是 “特殊 ”的 一 Al 
为 引号 能 够 表示 字符 串 的 结尾 ， 反 和 斜 线 表示 它 之 后 的 字符 不 会 终结 整 
个 字符 串 。 在 其 他 情况 下 ， [AN " ] | 就 是 普通 的 点 号 。 考 察 它们 如 何 
组 合 为 [^\\"]+ 国 国 [\\"]+)*， ， 首 先 它 符合 通用 的 模式 


‘normal+ (special normal+) *; o 
Se 


再 添加 两 端的 引号 ， 就 得 到 "[^\\ + AA+" o 不幸 的 
是 ， 表 6-2 中 下 面 两 个 例子 无 法 由 这 个 表达 式 匹 配 。 症 结 在 于 ， 目 前 这 
个 正则 表达 式 的 两 个 A" H 要 求 字符 串 以 一 个 普通 字符 开始 ， 然 后 
是 任何 数目 的 特殊 字符 。 从 这 个 例子 中 我 们 可 以 看 到 ， 它 并 不 能 应 付 
所 有 情况 一 一 字符 串 可 能 以 转 义 元 素 开 头 和 结尾 ， 一 行 中 间 也 可 能 包 
含 两 个 转 义 元 素 。 我 们 可 以 尝试 把 两 个 加 号 改 成 星 号 : 
EAIA ONIN"I*)*"。 这 会 达到 我 们 期 望 的 结果 吗 ? 更 重要 的 
是 ， 它 是 否 会 产生 负面 影响 ? 

就 期 望 的 结果 来 说 ， 很 容易 看 到 所 有 的 例子 都 能 匹配 。 事 实 上 ， 
即使 是 "、"\"\" “这样 的 字符 串 都 能 匹配 。 这 当然 很 不 错 。 不 过 ， 我 
们 还 需要 确认 ， 这 样 重大 的 改变 ， 是 否 会 导致 预料 之 外 的 结果 。 格 式 
不 对 的 引号 字符 串 能 否 匹配 呢 ? 格式 正确 的 引号 字符 串 是 否 可 能 无 法 
匹配 呢 ? 效率 又 如 何 呢 ? 

(PBR NNT NANI) "e FAKI T" [AN\"] 光 | 只 会 
应 用 一 次 ， 这 没有 问题 ， 它 匹配 开头 必须 出 现 的 引号 ， 以 及 之 后 的 任 
何 普通 字 符 。 这 没有 问题 。 接 下 来 的 1 WA") x 是 由 星 号 限 
定 的 ， 所 以 不 匹配 任何 字符 也 能 够 成 功 。 也 就 是 说 ， 去 掉 这 一 部 分 仍 
然 会 得 到 一 个 合法 的 表达 式 。 这 样 我 们 就 得 到 A", AE 
然 没 有 问题 一 一 它 代 表 了 常见 的 ， 也 就 是 没有 转 义 元 素 的 情形 。 

另 一 方面 ， 如 果 QVM"1*) 《1 部 分 匹配 了 一 次 ， 其 实 就 等 价 于 


E [^N\Nv] “ERAN + 5 即使 结尾 的 [AN ] 大 ， 没有 匹配 任何 文本 


(EXE TOIA) ， 也 没有 问题 。 照 这 样 分 析 下 去 (如 果 
没 记 错 的 话 ， 这 就 是 高 中 代数 中 的 “ 照 此 类 推 (by induction) ”) ， 我 
们 发 现 ， 这 样 的 改动 其 实 是 没有 任何 问题 的 。 

所 以 ， 我 们 最 后 得 到 的 ， 用 来 匹配 包括 转 义 引号 的 引号 字符 串 的 
正则 表达 式 就 是 : 


E (A\\"]* (a [^\\"]*) x") 
\_ 2 


真正 的 “消除 循环 ”解法 


The Real"Unrolling-the-Loop"Pattern 

综合 起 来 ， 匹 配 包 括 转 义 引 号 的 双 引 号 字符 串 正则 表达 式 就 古 
EAIA .IW"]*)*"。 这 和 原来 的 表达 式 能 够 匹配 的 结果 是 完 
全 一 至 的。 但 是 人 循环 消除 之 后 ， 表 达 式 能 够 在 有 限 的 时 间 内 结束 匹 
配 。 不 但 效率 高 得 多 ， 并 且 避 免 了 无 休止 匹配 。 

消除 循环 常用 的 解法 是 : 

| opening normal * (special normal * ) * closing | 

避免 无 休止 匹配 

避免 “IAA ONO") ERIE, FEARS 
要 : 

1) special 部 分 和 normal 部 分 匹配 的 开头 不 能 重合 。 

special 和 normal 部 分 的 子 表 达 式 不 能 从 同一 位 置 开 始 匹配 。 在 上 
Gl, normal 部 分 是 TIN" 1, , special 部 分 是 \. ， 显 然 它 们 不 能 
配 同样 的 字符 ， 因 为 后 者 要 求 以 反 笠 线 开 头 ， 而 前 者 不 容许 出 现 开头 
EN BC RES ° 

另 一 方面 ， \ ATA" 1, 都 能 够 从 "Hellovm ”开始 匹配 ， 所 
以 它们 不 符合 这 种 解法 。 如 打 二 者 能 够 从 字符 串 中 的 同一 位 置 开 始 匹 
配 ， 就 无 法 确定 该 使 用 哪 一 个 ， 这 种 不 确定 束 会 造成 无 休止 匹配 。“ 
‘makudcnacude, 的 例子 说 明了 这 一 点 (227) 。 如 果 无 法 匹配 (或 


te POSIX NFA 引 警 在 任何 情况 下 的 匹配 ) ， 束 必须 尝试 所 有 的 可 能 
性 。 这 非常 粳 糕 ， 因 为 改进 这 个 表达 式 的 首要 原因 残 是 为 了 避免 这 种 
情况 。 

如 有 果 我 们 确信 ，special 和 normal 部 分 不 能 匹配 同样 的 字符 ， 束 可 以 
将 special 部 分 用 作 检 查 点 ， 消 除 normal 部 分 在 '(...) x 的 各 轮 迭 代 
时 匹配 同样 文本 造成 的 不 确定 性 。 如 果 我 们 确信 special 部 分 和 normal 部 b 
分 永远 不 会 匹配 同样 的 文本 ， 则 特定 目标 字符 串 的 匹配 中 存在 唯一 的 
special 部 分 和 normal 部 分 的 “组 合 序列 ”。 检 查 这 个 序列 比 检查 成 和 上 万 
种 可 能 要 快 得 多 ， 于 是 避免 了 无 休止 匹配 。 

2) normal 部 分 必须 匹配 至 少 一 个 字符 

第 二 点 是 ， 如 果 normal 部 分 需要 匹配 字符 才能 成 功 ， 则 它 必 须 匹 配 
至 少 一 个 字符 。 如 果 我 们 能 够 匹配 成 功 ， 而 不 占用 任何 字符 ， 那 么 下 
面 的 字符 仍然 必须 由 ' (special normal) * | 的 不 同 迭 代 来 匹配 ， 这 
样 我 们 就 回 到 了 原来 的 (x) 大 的 问题 。 

选择 (u) x) 作为 special 部 分 就 违背 了 这 条 规定 。 
UNAMID CAND ALAN O *" 注 定 是 个 糟糕 的 表达 式 ， 如 果 用 它 来 
匹配 ‘" Tubby (SRM) ， 在 得 到 匹配 失败 的 结论 之 前 ，3 引 苟 必须 演 
RAF NPA" ] 炎 | 匹配 Tubby’ 的 每 一 种 可 能 。 因 为 special 部 分 可 以 
不 匹配 任何 字符 ， 所 以 它 无 法 作为 检查 点 。 

3) special 部 分 必须 是 固化 的 

special 部 分 匹配 的 文本 不 能 由 该 部 分 的 多 次 迭代 完成 。 如 果 需 要 
匹配 Pascal 中 可 能 出 现 的 注释 {...} 和 空 日 。 能 够 匹配 注释 部 分 的 正则 表 
ARE MIA, ， 所 以 整个 正则 表达 式 就 是 ' (MI 和}] 光 |+) 类， 

( 它 永 远 不 会 终止 ) 。 或 许 ， 你 会 这 样 划 分 normal 和 special 部 分 : 


Special normal 


e+) AHISHA 


使 用 我 们 学 会 的 normal* (special normal*)* | 的 解法 ， 我 们 得 到 


T AAAA 类 过 人 人] )“)”。 现 在 来 看 这 个 字符 串 


{comment} {another} 

匹配 连续 空格 的 可 能 是 单个 +, MBS +, 匹配 (每 个 匹配 一 
个 空格 ) ， 或 是 多 个 “+ 的 组 合 (每 个 匹配 不 同 数目 的 空格 ) 。 这 很 
像 之 前 的 tak8geB85268 的 问题 。 

此 问题 的 根源 在 于 ，special 部 分 既 能 够 匹配 很 长 的 文本 ， 也 能 通过 

(...) 夫 死 配 其 中 的 部 分 文本 。 非 确定 性 开 了 “多 种 方式 匹配 同样 文 

AX? A IF ° 

如 果 存 在 全 局 匹配 ， 很 可 能 +, 只 匹配 一 次 ， 但 是 如 果 不 存在 全 
局 匹配 (例如 把 这 个 表达 式 作 为 男 一 个 大 的 表达 式 的 一 部 分  ，3 引 警 
就 必须 对 每 一 段 空格 测试 ' C+) 兴 ， 所 有 的 可 能 。 这 需要 时 间 ， 但 这 
对 全 局 匹配 无 益 。 因 为 Special 部 分 应 该 作为 检查 点 ， 而 这 里 没有 任何 需 
要 检查 的 非 确 定性 。 

解决 的 方法 就 是 ， 保 证 special 部 分 只 能 够 匹配 固定 长 度 的 空格 。 
为 它 必须 匹配 至 少 一 个 空格 ， 但 可 能 匹配 更 多 ， 我 们 用 l- 作为 special 
部 分 ， 用 ”(...) x ,来 保证 special 的 多 重 应 用 能 匹配 多 个 空格 。 

这 个 例子 很 适合 讲解 ， 但 是 实际 应 用 起 来 ， 歼 率 更 高 的 办 法 可 能 
是 交换 special 和 normal 表 达 式 : 

-R <) +: 

因为 我 估计 Pascal 程 序 的 注释 不 会 比 空 格 少 ， 而 且 对 常见 情况 来 说 
更 有 效 的 办 法 是 用 normal 部 分 匹配 常见 的 文本 。 

寻找 通用 套路 

如 果 你 真正 掌握 了 这 些 规则 〈 可 能 需要 反复 阅读 和 一 些 实践 ) ， 
你 歼 能 把 这 几 条 推广 开 来 ， 作 为 指导 规则 ， 用 来 识别 可 能 造成 无 休止 
匹配 的 正则 表达 式 。 如 果 有 若干 个 量词 存在 于 不 同 的 层面 ， 例 如 (... 
x) 大 ，， 我 们 就 必须 小 心 对 待 ， 但 是 许多 这 样 的 表达 式 却 是 完全 没有 
问题 的 。 例 如 : 

e | (Re: -*) 类 | 用 来 匹配 任意 数目 的 ‘Re: :序列 (可 以 用 来 清 
除 邮件 主题 中 的 ‘Subject: :Re: :Re: Re: hey’) 。 

e | (-*\$[0-9]+) 类 | 用 来 匹配 美元 金额 ， 可 能 有 空格 作 分 隔 。 


e | (. 炎 \n) +, 用 来 匹配 一 行 或 多 行文 本 。 (事实 上 ， 如 果 点 号 
不 能 匹配 换行 符 ， 而 这 个 子 表达 式 之 后 义 有 别 的 元 于 导 致 匹配 失败 ， 
就 会 造成 无 休止 匹配 ) 。 

这 些 表 达 式 都 没有 问题 ， 因 为 每 一 个 都 有 检查 点 ， 也 就 不 会 产 
生 * 多 种 方式 匹配 同样 文本 ”的 问题 。 在 第 一 个 里 面 是 Re ， ， 第 二 个 
EHE NnS ， 第 三 个 (如 果 点 号 不 能 匹配 换行 符 ) 是 mi e 


方法 2: 目 顶 向 下 的 视角 


Method 2:A Top-Down View 

还 记得 吗 ? 我 说 过 , “消除 循环 ”有 两 种 办 法 。 如 有 果 采 用 第 二 种 办 
法 ， 开 始 只 匹配 目标 字符 串 中 最 常见 的 部 分 ， 然 后 增加 对 非常 见 情 况 
的 处 理 。 让 我 们 来 看 会 造成 无 休止 匹配 的 表达 式 AA 大) 期 
望 匹配 的 文本 以 及 它 可 能 应 用 的 场合 。 我 认为 ,通常 情况 下 引用 字符 
串 中 的 普通 字符 会 比 转 义 字符 更 多 ， 所 以 ” [AN "]+, 承担 了 大 部 分 工 
feo MN, 只 需要 用 来 处 理 偶然 出 现 的 转 义 字符 。 我 们 可 以 使 用 多 选 结 
构 来 应 付 两 种 情况 ， 但 糟糕 的 是 ， 为 了 处 理 少 部 分 ( 决 不 可 能 是 大 部 
T) 转 义 字符 ， 这 样 做 会 降低 效率 。 

如 果 我 们 认为 A" H 能 够 匹配 字符 串 中 的 绝 大 部 分 字符 ， 就 知 
道 如 末 匹 配 停 止 ， 大 概 是 遇 到 了 闭 引号 或 者 是 转 义 字符 。 如 果 是 转 义 
字符 ， 后 面容 许 出 现 更 多 的 字符 〈 无 论 是 什么 ) ， 然 后 开始 "bk, 
的 新 一 轮 匹配 。 每 次 [以 ”]+ 的 匹配 终止 ， 我 们 都 回 到 相同 的 处 境 : 期 
望 出 现 一 个 财 引号 或 者 是 另 一 个 转 义 。 

我 们 可 以 很 目 然 地 用 一 个 表达 式 来 表达 它 ， 得 到 与 方法 1 同样 的 结 
R. 


nm[^\\+( (KASUT 4) 8 
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我 们 知道 ， 匹 配 每 次 进行 到 标记 的 位 置 时 ， 应 该 出 现 一 个 反 和 斜 线 
或 者 财 双 引号 。 如 采 反 冬 线 能 匹配 ， 束 匹配 它 ， 然 后 是 被 转 义 的 字 
符 ， 然 后 是 更 多 的 字符 ， 直 到 下 一 次 到 达 “ 闭 引号 或 者 反 斜 线 ? 的 位 
a, 


和 之 前 一 样 ， 最 开始 的 非 引 用 内 容 或 是 引号 内 的 文本 可 能 为 空 。 
我 们 可 以 把 两 个 加 号 改 成 星 号 ， 这 样 束 得 到 与 264 页 相同 的 表达 式 。 


方法 3: 匹配 主机 名 


Method 3:An Internet Hostname 

上 面 介 绍 了 两 种 消除 循环 的 办 法 ， 不 过 我 还 愿意 介绍 另 一 种 办 
法 。 在 用 正则 表达 式 匹 配 如 www.yahoo.com 这 样 的 主机 名 时 ， 它 令 我 震 
惊 。 主 机 名 主要 是 用 点 号 分 隔 的 子 域名 的 序列 ， 准 确 地 划 定 子 域名 的 
匹配 规范 很 麻烦 (203) ， 为 了 保证 清晰 ， 我 们 使 用 '[a-z]+ 来 匹配 
子 域名 。 

如 果子 域名 是 “[a-z]+，， 我 们 希望 得 到 点 号 分 隔 的 子 域名 序列 ， 
惠 移 要 匹配 第 一 个 子 域名 。 之 后 其 他 的 子 域名 以 点 号 开头 。 用 正则 表 
达 式 来 表示 ， 就 是 [a-z] (\.[a-z]+) *, 。 现 在 ， 如 果 我 希望 添加 上 
前 面 出 现 的 各 种 标记 ， 就 得 到 [a-z]+ (VLa-z1+) *1， 显 然 它 看 起 来 非 
常熟 悉 ， 对 吗 ? 

为 了 说 明 这 种 相似 性 ， 我 们 壬 试 把 它 对 应 到 双 引 号 字符 串 的 例 
子 。 如 果 我 们 认为 字符 串 是 ‘" ..." ;之 内 的 文本 ， 包 括 normal 部 分 
[AN\"] ， 由 special 部 分 '\. 分隔 ， 就 能 套用 消除 循环 的 解法 ， 得 到 
NNTI+ WN" +)*" 中 ， 也 就 是 在 讨论 方法 1 中 的 菜 个 地 步 。 也 
束 是 说 ， 从 概念 上 讲 ， 我 们 能 够 把 由 点 号 分 隔 的 主机 名 的 问题 看 成 双 
引号 字符 串 的 问题 ， 也 就 是 “由 转 义 元 素 分 隔 的 非 转 义 元 素 构 成 的 序 
列 ”。 这 可 能 不 那么 直观 ， 但 是 我 们 可 以 使 用 前 面 用 过 的 套路 。 

二 者 既 存 在 相似 性 ， 也 存在 区 别 。 在 方法 1 中 ， 我 们 改变 正则 表达 
式 是 为 了 容许 normal 部 分 和 special 部 分 之 后 出 现 空 日 ， 但 是 这 里 不 容许 
出 现 空 掉 。 所 以 虽然 这 个 例子 与 之 前 的 并 非 完 全 相同 ， 但 也 属于 同一 
类 ， 同 样 可 以 用 来 证 明 消 除 循环 的 技巧 的 强大 和 便捷 。 

子 域名 的 例子 与 之 前 的 例子 有 两 大 区 别 |: 

e 域 名 的 开始 和 结束 没有 分 界 符 。 


e 了 域名 的 normal 部 分 不 可 能 为 空 (也 就 是 说 两 个 点 号 不 能 紧 挨 在 
一 起 ， 点 号 也 不 能 出 现在 整个 域名 的 开头 或 结尾 ) 。 对 双 引 号 字符 串 
来 说 ，normal 部 分 可 以 为 室 ， 即 使 按照 我 们 的 假设 它们 不 太 应 该 为 空 。 
所 以 我 们 需要 把 [^\"] 南 改 为 [入 \"] 和 。 而 子 域名 的 例子 不 能 进行 这 
种 修改 ， 因 为 special 部 分 有 是 分 隔 符 ， 必 须 出 现 。 


观察 


Observations 

回 过 头 来 看 双 引 号 字符 串 的 例子 ， 表 达 式 PW" AA "] 
x) ok" 有 许多 优点 ， 也 存在 一 些 陷 阱 。 

陷阱 : 

e 可 读 性 这 是 最 大 的 问题 ， 原 来 的 ” (AIN) x" | 可 能 
容易 一 眼看 懂 ， 我 们 放弃 了 可 读 性 来 追求 效率 。 

e 可 维护 性 可 维护 性 可 能 更 复杂 ， 因 为 任何 改动 都 必须 保持 对 两 个 
[以 ”] 相 同 。 我 们 牺牲 了 可 维护 性 来 追求 效率 。 

BEN: 

ER 如 果 不 能 匹配 ， 或 是 采用 POSIX NFA， 这 个 正则 表达 式 不 
会 进入 无 休止 匹配 。 因 为 进行 了 精心 地 调 校 ， 特 定 的 文本 只 能 以 唯一 
的 方式 匹配 ， 如 采 文 本 不 能 匹配 ， 引 警 会 迅速 发 现 它 。 

e 还 是 速度 正则 表达 式 “ 操 作 连 续 性 (flow) ”很 好 ， 这 也 是 “流畅 
运转 的 正则 表达 式 ”(277) 的 主题 。 我 对 传统 型 NFA 进行 了 检测 ， 
消除 循环 之 后 的 表达 式 总 是 比 之 前 使 用 多 选 结构 的 表达 式 要 快 得 多 。 
即使 匹配 能 够 成 功 ， 不 会 进入 无 休止 匹配 状态 时 ， 也 是 如 此 。 


使 用 固化 分 组 和 占有 优先 量词 


Using Atomic Grouping and Possessive Quantifiers 

FART" AAAH 淡 "| 之 所 以 会 进入 无 休止 匹配 的 状态 ， 
问题 在 于 ， 如 末 无 法 匹配 ， 它 会 陷入 徒劳 的 洗 试 。 不 过 ， 如 果 存 在 匹 
配 ， 就 能 很 快 结束 ， 因 为 A" J 能 够 匹配 目标 字符 串 中 的 大 多 数字 


符 (也 就 是 之 前 讨论 过 的 normal 部 分 ) 。 因 为 “[...]+| 通常 会 为 速度 优 
(i (247) ， 而 且 能 够 匹配 大 多 数字 符 ， 外 面 的 ”(...) * | 量词 的 
开销 因此 大 为 减少 。 

PRA," QIAN" ]+) 夫 ”的 问题 就 在 于 ， 不 会 在 匹配 时 会 陷 
入 徒劳 的 笑 试 ， 在 我 们 知道 旱 无 用 处 的 备用 状态 之 中 不 断 回 滴 。 我 们 
知道 这 些 状态 上 毫 无 价值 ， 因 为 他 们 只 是 检查 同样 对 象 的 不 同 排列 (如 
R l'abe) PREDME foo’, BBA labe) KH abcj (以 及 ‘abc, ， ‘abc, 
或 者 无 论 什么 形式 的 abc ) 都 不 能 匹配 。 如 果 我 们 能 抛弃 这 些 状 
态 ， 正 则 表达 式 就 能 迅速 报告 匹配 失败 ) 。 

抛弃 (或 者 是 忽略 ) 这 些 状 态 的 方法 有 两 种 : 固化 分 组 (139) 
或 者 占有 优先 量词 (142) 。 

在 我 们 着 手 消 除 回溯 以 前 ， 我 希望 交换 多 选 分 支 的 顺序 ， 把 “" 
CUA] EM) o* "DORE DRE E 
通 ” 文 本 的 元 素 就 出 现在 第 一 位 。 前 儿 章 中 我 们 已 经 数 次 提 到 过 ， 如 果 
两 个 或 两 个 以 上 的 多 选 分 支 能 够 在 同一 位 置 匹 配 ， 排 列 顺序 的 时 候 就 
要 小 心 ， 因 为 顺序 可 能 影响 到 匹配 的 结果 。 但 对 于 本 例 来 说 ， 不 同 多 
选 分 支 匹配 的 是 不 同 的 文本 ( 某 个 多 选 分 支 在 一 处 能 够 匹配 ， 则 其 他 
多 选 分 文 在 此 处 就 不 能 匹配 ) ， 从 正确 匹配 的 角度 来 看 ， 顺 序 就 是 无 
天 紧要 的 ， 所 以 我 们 可 以 根据 清晰 或 效率 的 要 求 来 选择 顺序 。 

使 用 占有 优先 量词 避免 无 休止 匹配 

会 造成 无 休止 匹配 的 表达 式 ”” PA" ]+N\) 类 "| 有 两 个 量词 。 
我 们 可 以 把 其 中 一 个 改 为 占有 优先 量词 ,或 者 两 个 都 改 。 这 两 者 有 区 
别 吗 ? 因为 大 多 数 回溯 的 麻烦 源 自 [...]+ | 留 下 的 状态 ， 所 以 把 它 改 成 
占有 优先 古 我 的 第 一 想法 。 这 样 得 到 的 表达 式 ， 即 使 找 不 到 匹配 ， 速 
度 也 很 快 。 不 过 ， 把 外 面 的 (.…) k 改 成 占有 优先 会 抛弃 括号 内 的 
所 有 备 选 状态 ， 其 中 包括 TL.) 和 多 选 结 构 本 吴 的 备 选 状态 ， 所 以 
如 果 我 要 从 中 选取 一 个 的 话 ， 我 会 选取 后 者 。 

但 我 们 并 非 只 能 选择 一 个 ， 因 为 我 们 可 以 把 两 个 都 改 为 占有 优先 
量词 。 具 体 哪 种 办 法 最 快 ， 可 能 取决 于 占有 优先 量词 的 优化 情况 。 现 
在 ， 只 有 Sun 的 Java regex package 支 持 这 种 表示 法 ， 所 以 我 的 测试 只 能 


在 Java 中 进行 ， 并 且 发 现 某 些 情形 下 其 中 一 种 组 合 更 快 。 我 原本 期 望 ， 
使 用 两 个 占有 优先 量词 是 最 快 的 ， 所 以 这 些 结果 让 我 相信 ，Sun 的 优化 
还 不 够 彻底 。 

使 用 固化 分 组 避免 无 休止 匹配 

MRE!" (A'N) x" 使 用 固化 分 组 ， 最 容易 想到 的 办 
法 就 是 把 普通 括号 改 成 固化 分 组 括号 : 6" (? SPA" I) "e 
不 过 我 们 必须 知道 ， 在 抛弃 状态 的 问题 上 ，” (? >...|...) 类 | 与 占有 
优先 的 (...|...) e+, 是 迎 然 不 同 的 。 

To GU) x+ 在 完成 时 不 会 留 下 任何 状态 ， 相 反 ， 5 (? 
>...|...) x) 只 是 消除 多 选 结构 每 次 迭代 时 保留 的 状态 。 星 号 是 独立 
于 固化 分 组 的 ， 所 以 不 受 影响 ， 这 个 表达 式 仍然 会 保留 “ 跳 过 本 轮 达 
代 ” 的 备用 状态 。 也 歼 是 说 ， 回 漳 中 的 状态 仍然 不 是 确定 的 最 终 状 态 。 
我 们 希望 同时 消除 外 面 量词 的 备用 状态 ， 所 以 要 把 外 面 的 括号 也 改 成 
固化 分 组 。 也 就 是 说 模拟 占有 优先 (...|...) x+ 必须 用 到 ”(? > 

人 

解决 无 休止 匹配 的 问题 时 ，『 Ca) wet, 和 T (? SL) 
类 | 都 很 有 用 ， 但 是 它们 在 抛弃 状态 的 选择 和 时 间 上 却 是 不 同 的 (更 多 
的 差异 ， 请 参阅 173 页 ) 。 


简单 的 消除 循环 的 例子 


Short Unrolling Examples 

现在 我 们 大 概 了 解 了 消除 循环 的 思想 ， 来 看 看 书 中 曾经 出 现 过 的 
儿 个 例子 ， 想 想 该 如 何 消除 循环 。 

消除 “多 字符 ”引文 中 的 循环 

在 第 4 章 第 167 页 ， 我 们 看 到 这 个 例子 : 


<B> # 匹配 开头 的 <B> 
# 现在 匹配 尽 可 能 多 的 … 
(?! </?B> ) # 如果 不是 <B> 也 不 是 </B> … 
. # … 任 何 字 符 都 没 问题 
# (匹配 优先 量词 ) 
</B> # <ANNO> 直 到 结束 边界 
normal 部 分 是 [^<]; ，special 部 分 是 ' (2 ! </? B>) <,, F 


面 是 改进 的 版 本 : 


<B> 


)* 


匹配 开头 的 <B> 
匹配 任意 数量 的 "normal"…: 
任意 数量 的 … 


# 
cee [ST *) # 
# 

(?! < /? B> ) # 如 果 不 是 <B> 也 不 是 </B> 
# 
# 
# 


(?> 


< 匹配 "special" 
["<]* 然后 继续 匹配 任意 数量 的 "normal" 


)* 

</B> # 最 后 匹配 结尾 的 </B> 

这 里 固化 分 组 并 不 是 必须 的 ， 但 如 果 只 能 部 分 匹配 ， 使 用 固化 分 
组 能 够 提高 速度 。 

消除 连续 行 匹配 例子 中 的 循环 

连续 行 的 例子 出 现在 前 一 章 的 开头 (186) ， 当 时 使 用 的 表达 式 
是 Awt (Ann) 类 | 。 看 起 来 这 很 适合 应 用 这 种 技巧 : 

^ \wt = # 开头 的 文字 和 '=' 


# 现在 读 取 (并 且 捕 获 ) 值 ... 
( 


TAN 和 人 # "“normal"* 
《2 # ( "special" "normal"*) * 
) 
与 上 一 个 例子 一 样 ， 固 化 分 组 不 是 必须 的 ， 但 它 能 让 引擎 更 快 地 
报告 匹配 失败 。 
消除 CSV 正 则 表达 式 中 的 循环 
第 5 章 用 了 很 长 的 篇 幅 讨 论 CSV 的 处 理 ， 最 后 得 到 第 216 页 的 代 
fF: 


C2515) 

(2:4 或 者 是 匹配 双 引 号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) ... 
" # (起 始 双 引 号 ) 
(tee (lf ye 5 
"3# (结束 双 引 号 ) 


# 。.。 或 者 是 引号 和 过 号 之 外 的 文本 . . . 
T. 


当时 的 结论 是 ， 最 好 在 开头 添加 \G，， 这 样 就 能 避免 驱动 过 程 带 
来 的 奢 烦 ， 并 旦 效率 也 会 提高 。 现 在 我 们 知道 如 何 消除 循环 ， 就 可 以 
此 技巧 来 看 看 如 何 应 用 这 个 例子 。 

用 来 匹配 微软 的 CSV 字 符 串 的 正则 表达 式 是 4? : PA" Y" ") 
大 ，， 它 看 起 来 很 不 错 。 其 实 ， 这 个 表达 式 已 经 区 分 了 normal 和 special 
部 分 : [A"] 和 '""，。 下 面 我 们 把 这 个 表达 式 写 清楚 ， 用 原来 的 
Perl 代 码 说 明 消 除 循 环 的 过 程 : 


while ($line =~ m{ 
Net ied 
trae 
# 或 者 匹配 双 引 号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) ? 
" 3# 起 始 双 引号 


( A Cange y daa me I ye) 
" # 结束 双 引 号 
# 。。 ,或 者 是 
| 
E .,。 或 者 是 引号 和 冯 号 之 外 的 文本 ,，,， 
el 
) 
} gx) 
{ 
if (defined $2) { 
Sfield = $2; 
else { 
$field = $1 
$field = FRIG: 


print "[$field]"; # 输出 字段 的 值 以 供 调试 
现在 处 理 $field... 


如 其 他 的 例子 一 样 ， 固 化 分 组 不 是 必须 的 ， 但 可 以 提高 效率 。 
消除 C 语 言 注释 匹配 的 循环 


Unrolling C Comments 

现在 来 看 个 匹配 更 复杂 字符 串 时 消除 人 循环 的 例子 。 在 C 语 言 中 ， 注 
释 以 / 兴 开 头 ， 尖 /结尾 ， 可 以 有 多 行 ， 但 不 能 租 套 (C++、Java 和 C 闪 也 
容许 这 种 形式 的 注释 ) 。 匹 配 此 类 注释 的 正则 表达 式 在 许多 情况 下 者 
有 用 ， 例 如 构建 去 掉 注 释 的 过 滤 程 序 。 写 这 个 程序 时 我 首先 想到 的 就 
是 消除 循环 ， 而 这 个 技巧 现在 已 经 成 为 我 的 正则 表达 式 宝 库 中 的 重要 
RE ° 

真 的 需要 消除 吗 

我 在 20 世纪 90 年 代 早 期 天 开始 开发 本 和 讨论 的 这 个 正则 表达 式 。 
在 那 之 前 ， 人 们 认为 用 正则 表达 式 匹 配 C 语言 的 注释 即使 不 是 不 可 


能 ， 也 是 很 困难 的 事情 ， 所 以 一 些 可 行 的 办 法 由 我 开发 出 来 之 后 ， 就 
成 为 匹配 C 语 言 注 释 的 标准 方法 。 不 过 ， 在 Pen 引入 忽略 优先 量词 之 
后 ， 出 现 了 简单 得 多 的 办 法 : 使 用 能 匹配 所 有 字符 的 点 号 AA.A? 
\k/, 。 

在 我 写 程序 的 时 候 忽略 优先 量词 还 没有 出 现 ， 如 果 当 时 有 这 种 现 
成 的 特性 ， 束 不 用 费 这 么 多 周折 了 。 不 过 ， 我 的 解决 办 法 仍然 是 有 效 
的 ， 因 为 即使 在 首次 支持 忽略 优先 量词 的 那 一 版 Perl 中 ， 使 用 消除 循 
环 技 巧 的 程序 仍然 要 比 使 用 忽略 优先 量词 的 快 得 多 (我 做 了 许多 种 测 
试 ， 有 时 快 50%， 也 有 时 快 360%) 。 

不 过 ，Perl 现在 综合 了 各 种 优化 措施 ， 形 势 就 颠倒 过 来 ， 忽 略 优先 
量词 的 程序 要 快 上 50% 到 550%。 所 以 我 现在 使 用 Ax. x? \ 大 /| 来 匹 
配 C 语 言 的 注释 。 

这 是 否 意味 着 ， 现 在 匹配 C 语言 注视 用 不 着 消除 循环 的 技巧 了 ? 
如 果 3 引 苟 不 支持 忽略 优先 量词 ， 消 除 循环 的 价值 束 能 体现 出 来 。 也 不 
是 所 有 的 正则 3 引 敬 都 能 综合 各 种 优化 ， 在 我 测试 的 其 他 任何 语言 中 ， 
消除 了 循环 的 程序 都 要 更 快 一 一 最 快 的 时 候 速 度 相 差 60 倍 ! 消除 循环 
的 技巧 确实 很 有 用 ， 所 以 下 文 讲 解 如 何 用 它 来 匹配 C 语 言 注释 。 

因为 匹配 C 语言 注释 时 不 存在 双 引 号 字符 串 中 转 义 字符 \" 的 问 
题 ， 可 能 有 人 觉得 事情 会 比较 简单 ， 但 问题 其 实 更 复杂 。 因 为 这 里 
的 “结束 双 3 引 号 ”类 /不 止 一 个 字符 。 直 接 用 [人 类 [人 类] 类 \ 炎 /| 可 能 看 起 
来 没 问 题 ， 但 不 能 匹配 /淡淡 some comment here 淡淡 /， 因 为 其 中 人 还 
有 “类 *， 而 这 是 必须 匹配 的 ， 所 以 我 们 需要 另外 的 办 法 。 

换 更 清晰 的 表示 方法 

你 可 能 觉得 A 兴 [A 尖 ] 类 \ 类 /| 难以 阅读 ， 即 使 本 书 的 体例 已 经 尽量 
做 到 容易 看 懂 。 但 不 笠 的 是 ， 注 释 部 分 的 边界 符 ' 夫 :本 喘 就 是 正则 表达 
式 的 元 字符 ， 所 以 得 使 用 反 冬 线 转 义 ， 结 果 正 则 表达 式 看 起 来 让 人 头 
疫 。 为 了 看 得 更 清楚 ， 我 们 在 这 个 例子 中 使 用 /x...x/， 而 不 是 /类 .…. 
类 /。 经 过 这 个 细微 的 改动 ，' 人 类 [^ 淡 ] 淡 \ 炎 /| 变 成 了 更 容易 看 懂 的 
/x[^x] 湾 x/，。 这 个 表达 式 会 随 着 我 们 的 讲解 变 得 越 来 越 复杂 ， 到 时 你 
会 发 现 这 个 改动 的 价值 。 

直接 的 办 法 


在 第 5 章 (196) ， 我 给 出 了 匹配 分 隔 符 之 内 文本 的 公式 : 

1. 匹 配 起 始 分 隅 符 ; 

2. 匹 配 正 文 : 匹配 “ 除 结束 分 隅 符 之 外 的 任何 字符 ” 

3. 匹 配 结束 分 隔 符 。 

现在 我 们 的 程序 以 x 和 X/ 作 为 开始 和 结束 分 隔 符 ， 它 似乎 很 符合 这 
个 模式 。 难 处 在 于 匹配 * 除 结束 分 隅 符 之 外 的 任何 字符 ”。 如 果 结 束 分 
隔 符 是 单个 字符 ， 我 们 可 以 用 排除 型 字符 组 。 但 字符 组 不 能 用 来 进行 
多 字符 匹配 ， 不 过 如 果 能 使 用 否定 型 顺序 环视 ， 我 们 就 能 使 用 
r (2: (2 ! x) .) x) o RRE 除 结束 分 隔 符 之 外 的 任何 字 
符 | 。 

于 是 我 们 得 到 /x (? : (2 ! x/) .) xx; 。 它 没有 问题 ， 但 速 
ERE (在 我 做 的 一 些 测试 中 ， 速 度 要 比 下 面 的 表达 式 慢 几 百倍 ) 
这 个 思路 很 有 用 ， 但 缺乏 实用 性 ， 因 为 几乎 所 有 支持 顺序 环视 的 流派 
都 支持 忽略 优先 量词 ， 所 以 效率 并 不 是 问题 ， 你 完全 可 以 用 x. *? 
X/| ° 

那么 ， 顺 着 这 种 分 三 步 走 的 思路 ， 是 否 有 其 他 办 法 匹配 第 一 个 x/ 
之 前 的 文本 ? 能 想到 的 办 法 有 两 个 。 之 一 是 把 x 作 为 开始 分 隔 符 和 结 
Tiat, Em, MARR x 之 外 的 任何 字符 ， 以 及 之 后 字符 不 为 斜 线 
的 x。 这 样 , “ 除 结束 分 隅 符 之 外 的 任何 字符 ? 束 成 了 : 

e 除 x 之 外 的 任何 字符 : Ax], 。 

e。 之 后 字符 不 是 斜 线 的 x: xM] 。 

这 样 得 到 (aM) * ,来 匹配 主体 文本 ， /x (xM) * 
x/| 来 匹配 整个 注释 。 我 们 会 发 现 这 条 路 行 不 通 。 

另 一 种 办 法 是 ， 把 紧 跟 在 x 之 后 斜 线 当 作 结 束 分 隔 符 。 这 样 * 
束 分 隔 符 之 外 的 任何 字符 ”就 成 了 : 

e 除 斜 线 外 的 任何 字符 : TM] 。 

。 紧 跟 在 x 之 后 的 斜 线 : TAX] 。 

于 是 用 (Mx) 关 ， 匹配 主体 文本 ， AM (WI) *x/ WŒ 
配 整 个 注释 。 


a 


Ds yE 
SR EA 


不 对 的 是 ， 这 同样 是 死路 。 

如 果 用 x ([^x]lx[/]) 类 X/ | 来 匹配 “xx'foo.xx/"， 在 "foo… 之 后 ， 
第 一 个 x 由 xv], 匹配 ， 这 当然 没有 问题 。 但 是 之 后 ，* 忆 /匹配 
xx/ ， 而 这 个 x 应 该 是 标记 注释 的 结束 。 于 是 继续 下 一 轮 迭 代 ， 
[Ax], 匹配 斜 线 ， 结 果 会 匹配 x/ 之 后 的 文本 。 

Tix (MI) *x/, 也 不 能 匹配 ‘/x/:foo:/x/”( 整 个 注释 都 应 该 匹 
At) 。 如 果 注 释 结尾 后 紧 跟 斜 线 ， 表 达 式 匹配 的 内 容 会 超过 注释 的 结 
RDF 〈 这 也 是 其 他 解法 的 问题 ) 。 而 在 本 例 中 ， 回 滴 可 能 有 些 令 
人 迷惑 ， 所 以 读者 最 好 弄 明 白 /xx (Mx) xx 为 什么 能 匹配 


Years = days /x divide x//365, /x assume non-leap year X/ 
HA 


(可 以 在 空余 时 间 好 好 想 想 这 个 问题 。) 

怎么 办 

让 我 们 来 修正 这 些 表 达 式 。 在 第 一 种 情况 下 ， 因 为 疏忽 ， ‘xl, 
匹配 了 结尾 的 ...xx/。 如 果 我 们 用 “/x 〈[Ax]lx+[A) 类 x/，。 我 们 认为 ， 
添加 加 号 之 后 ， “x+[A] 匹配 以 非 斜 线 字符 结尾 的 一 连 串 x。 确 实 它 能 
够 这 样 匹配 ， 但 因为 回 济 “ 斜 线 之 外 的 任意 字符 ”仍然 可 以 是 x。 首 先 ， 
匹配 优先 的 _x+, 匹配 我 们 需要 的 额外 的 x， 但 是 如 果 全 局 匹配 需要 ， 
回溯 会 逐个 释放 它们 。 所 以 它 仍然 会 匹配 过 多 内 容 : 

/xx A xx/ foo() /xx B xx/ 

要 解决 这 个 问题 ， 还 得 回 到 之 前 介绍 的 办 法 : 准确 表达 我 们 希望 
表达 的 意思 。 如 果 我 们 说 的 “ 紧 跟 字符 不 是 斜 线 的 一 些 x” 其 实 束 是 除 x 
之 外 的 非 斜 线 字符 ， 就 应 该 用 x+[^/8]1。 它 不 会 匹配 …xx8/”， 一 连 
串 x 中 表示 注释 结束 的 那个 x。 事 实 上 ， 它 还 有 个 问题 ， 就 古 无 法 匹配 
注释 结束 之 前 的 任意 多 个 x， 所 以 会 在 …,xxx/ ' 停 下 来 。 因 为 我 们 预 
计 结 尾 分 隔 符 前 只 有 一 个 x， 所 以 必须 加 入 “x+/| 处 理 这 种 情况 。 

于 是 得 到 x (AxN) xx, TERRIER 。 


在 自然 语言 和 正则 表达 式 之 间 翻 译 
第 273 页 讨论 用 来 匹配 C 注释 “ 除 结束 分 隔 符 之 外 的 任何 字符 ”的 两 种 方法 时 ， 我 提 
到 两 种 办 法 ， 
X， 之 后 的 字符 不 是 料 线 ; x[*/]) 
针线 ， 之 前 的 字 蔡 不 是 x: [^x]/ 
这 种 做 法 并 不 正式 一 一 自然 语言 的 描述 与 正则 表达 式 是 非常 不 同 的 ， 你 发 现 了 吗 ? 


要 看 这 两 者 的 差别 ， 想 象 第 一 个 表达 式 匹 配 字符 事 “regex” 的 情况 ， 最 后 的 X 之 后 
没有 针线, 但 它 不 能 被 'x[^/]) eR, 字符 组 必须 匹配 一 个 字符 ,尽管 这 个 字符 不 能 是 


针线 ， 但 它 必 须 存 在 ， 可 “regex” 中 的 x 之 后 没有 任何 字符 ， 第 二 个 表达 式 的 情况 
与 此 类 似 ， 当 时 ， 我们 需要 的 正 是 符合 这 两 个 要 求 的 表达 式 ， 所 以 自然 语言 的 表述 是 
错误 的 。 

如 果 能 使 用 顺序 环视 ,，“"X， 之 后 的 字符 不 是 针线 ”可 以 直接 写 做 '%x(?!1/) ,如 果 不 能 ， 
就 可 以 使 用 区 ([^/]1S)，。 它 仍然 需要 匹配 X 之 后 的 字符 ,但 也 可 以 匹配 字符 串 的 结尾 ， 
如 果 能 够 使 用 北 序 环视 ,，“ 斜 线 ， 之 前 的 字 苦 不 是 x” MTV ARH (3<!X) 11， 如 果 
不 能 ， 就 需要 使 用 (Ill) 

在 这 个 例子 中 ， 我 们 没有 使 用 上 述 的 任何 一 种 办 法 ， 但 知道 有 这 些 办 法 并 不 是 坏事 ， 


这 看 起 来 很 迷惑 ， 对 吗 ? 真正 的 表达 式 〈 用 类 取代 x) 就 是 人 类 
(IA 兴 下 类 +[A/ 兴 ]) 兴 \ 兴 + ， 这 样 更 复杂 了 ， 更 不 容易 看 懂 ， 所 以 在 

理解 复杂 的 正则 表达 式 时 ， 一 定 要 保持 清醒 的 思维 。 

消除 C 语 言 注释 的 循环 

为 了 提高 表达 式 的 效率 ， 我 们 必须 消除 这 个 表达 式 的 循环 。 下 一 
页 的 表 6-3 给 出 了 我 们 能 够 “消除 循环 ”的 表达 式 。 

和 子 域名 的 例子 一 样 ，'normal 炎 | 必须 匹配 至 少 一 个 字符 。 子 域 
名 的 例子 中 是 因为 normal 部 分 不 能 为 空 。 本 例 中 必须 的 结束 分 隔 符 包 
含 两 个 字符 。 我 们 确信 ， 任 何以 结束 分 隔 符 的 第 一 个 字符 结尾 的 任何 
normal 序 列 ， 只 有 在 紧 跟 字符 不 能 组 成 结束 分 隔 符 的 情况 下 ， 才 会 把 控 
制 权 交 给 Special 部 分 。 


426-3: 消除 C 语 言 注释 的 循环 


opening normal* (special normal*)* closing 
Na 


所 以 ， 按 照 通 用 的 消除 套路 ， 我 们 得 到 |: 


/x[^x]xx+( BW [*x] *x+) */) 
Moc 


请 注意 = 标注 的 位 置 。 正 则 引擎 可 能 有 两 种 办 法 到 达 此 处 (267 页 
的 表达 式 也 是 如 此 ) 。 第 一 个 是 在 开头 的 /x[^x] 淡 x+| 匹配 之 后 直接 
前 进 到 此 处 ， 第 二 是 在 C) 兴 循 环 的 某 一 轮 中 。 无 论 哪 种 情况 ， 只 
要 到 达 此 处 ， 我 们 就 知道 已 经 匹配 了 x， 到 达 关 键 位 置 (pivotal 
point) ， 可 已 经 进入 了 注释 的 结尾 分 隔 符 。 如 果 下 面 的 字符 是 和 斜 线 ， 
则 匹配 完成 。 如 果 是 其 他 字符 (当然 不 是 x) ， 我 们 知道 之 前 的 判断 是 
错误 的 ， 然 后 回 到 normal 部 分 ， 等 得 下 一 个 x。 找 到 之 后 我 们 再 一 次 回 
到 标记 位 置 。 

回 到 现实 

T/x[Ax]*x+ ([A/x][Ax] *x+) 类 /| 还 不 能 直接 拿 来 用 。 首 先 ， 注 
释 是 / 火 ... 灾 /而 不 是 /x...x/。 当然， 我 们 可 以 很 容易 地 把 每 个 x 蔡 换 为 \x 

(字符 组 中 的 x 替换 为 大 ) : 
[AX [Ak] >k HIN] 

实际 情况 中 ， 注 释 通 常会 包括 多 行 。 如 有 果 匹 配 的 注释 包括 多 行 ， 
这 个 表达 式 也 应 该 能 够 应 付 。 如 宁 是 严格 以 行为 处 理 单 位 的 工具 ， 例 
如 egrep， 当 然 没 办 法 用 一 个 正则 表达 式 匹 配 所 有 的 行 。 对 本 书 中 提 到 
的 大 多 数 工 具 ， 我 们 的 确 可 以 用 这 个 表达 式 来 匹配 多 行 ， 删 除 它们 。 

在 实际 中 ， 会 遇 到 许多 问题 。 这 个 正则 表达 式 能 够 识别 C 的 注释 ， 
但 不 能 识别 C 语 法 的 其 他 重要 方面 。 例 如 ， 划 线 的 部 分 尽管 不 是 注释 ， 
也 能 够 匹配 : 


const char *cstart = "/*", *cend = "*/" 
e ， 


我 们 会 在 下 一 节 接着 讨论 这 个 例子 。 


流畅 运转 的 表达 式 


The Freeflowing Regex 

我 们 花 了 不 少时 间 来 构建 匹配 C 的 注释 的 正则 表达 式 ， 但 是 没有 
考虑 如 何 避 免 字符 串 中 的 错误 匹配 。 使 用 Pen 的 话 ， 你 可 能 会 想到 用 下 
面 的 程序 过 滤 注 释 : 

$prog= 一 S{A 兴 [A 兴 ] 炎 \ 类 + (? : [VA]AK]K\K+) 类 /}{}g; F 
去 掉 C 语 言 注释 (但 有 错误 ! ) 

表达 式 中 ， 变 量 $prog 保 存 的 文本 会 被 删除 〈 也 就 是 ， 被 空 文本 替 
Pee) 。 问题 在 于 ， 如 采 在 字符 串 内 部 找到 注释 的 起 始 标记 ， 正 则 表 
达 式 的 匹配 也 不 会 停止 ， 比 如 这 段 C 代 码 : 


char *CommentStart = "/*"; /* start of comment */ 
char *CommentEnd = "*/"; /* end of comment */ 


这 里 ， 下 男 线 标注 的 部 分 是 正则 表达 式 的 匹配 结果 ， 但 是 粗 体 标 
注 的 部 分 才 是 我 们 期 望 的 。 引 获 寻 找 匹 配 时 会 在 目标 字符 串 的 每 个 位 
置 开始 尝试 匹配 表达 式 。 因 为 这 种 尝试 只 有 在 注释 开始 的 地 方 (或 者 
征 看 起 来 有 可 能 开始 的 地 方 ) 成 功 ， 所 以 在 大 部 分 位 置 都 无 法 匹配 ， 
传动 痛 置 的 驱动 过 程 继续 癌 前 ， 进 入 双 引 二 字符 串 ， 其 内 容 似乎 是 注 
释 的 开始 。 最 好 走 能 够 告诉 正则 引擎 ， 遇 见 双 引 喜 字 符 串 时 是 应 该 答 
试 匹配 还 且 直 接 跳 过 。 当 然 ， 我 们 确实 能 做 到 这 一 点 。 


引导 匹配 的 工具 
A Helping Hand to Guide the Match 
看 下 面 的 程序 : 
SCOMMENT = qr{/\*(**]*\*4+(2: [~/*] (~*]*\*+)*/}; # 匹配 注释 
SDOUBLE = qr{"(?:\\.| [~^\\"])*"}; # 匹配 双 引 号 字符 事 
$text =~ s/SDOUBLE|$COMMENT//gq; 


这 里 出 现 了 两 件 新 事物 。 其 中 之 一 是 表达 了 式 
'$DOUBLE|$COMMENT, ， 它 由 两 个 变量 组 成 ， 都 使 用 了 Perl 特 有 的 


qr.../ 正 则 表达 式 “ 双 引号 字符 串 ? 操 作 符 。 我 们 曾 在 第 3 章 仔 细 讨 论 过 

(7101) ， 如 果 用 字符 串 表 示 正 则 表达 式 ， 使 用 字符 串 的 时 候 必 须 格 
外 小 心 。Perl 提 供 的 qr/.../ 运 算 符 解决 了 这 个 问题 ， 它 会 把 操作 对 象 
(operand) 视 为 正则 表达 式 ， 但 不 会 实际 应 用 它 。 我 们 在 第 2 章 (© 
76) 已 经 看 到 ， 这 样 非常 方便 。 与 m/.../ 和 s/.../.../ 一 样 ， 我 们 可 以 自己 
选择 分 隔 符 (71) ， 上 面 使 用 的 是 花 括 号 。 

男 一 点 是 通过 用 $DOUBLE 来 匹配 双 引 号 字符 串 。 传 动 装置 驱动 到 
$DOUBLE 能 匹配 的 位 置 时 ， 会 一 次 性 匹配 整个 双 3 引 号 字符 串 。 这 里 使 
用 多 选 分 支 完全 没有 问题 ， 因 为 二 者 之 间 并 没有 重 笋 。 如 果 我 们 从 左 
器 右 扫 摘 这 个 正则 表达 式 就 会 发 现 ， 应 用 到 字符 串 时 ， 存 在 三 种 可 
HE: 

e 注 释 部 分 能 够 匹配 ， 于 是 一 次 性 匹配 注释 部 分 ， 直 接 到 达 注 释 的 

e 双 引号 字符 串 部 分 能 够 匹配 ， 于 是 一 次 性 匹配 双 引 号 字符 串 ， 直 
接 到 达 其 结尾 ， 或 者 ..… 

e 上 面 两 者 都 不 能 匹配 ， 本 轮 和 尝试 失败 。 启 动 驱 动 过 程 ， 跳 过 一 个 
FI o 


这 样 ， 正 则 表达 式 永远 不 会 从 双 引 号 字符 串 或 者 注释 内 部 开始 尝 
试 ， 这 就 是 成 功 的 关键 。 实 际 上 ， 到 目前 为 止 还 不 够 ， 因 为 这 个 表达 
式 在 删除 注释 的 同时 也 会 删除 双 引 号 字符 串 ， 不 过 我 们 只 需要 再 修改 
一 小 总 驶 可 以 了 。 


SCOMMENT = qr{/\*[^*]*\*+(?: [^/*] [4*] *\*+) */}; # 匹配 注释 
SDOUBLE = qr{"(2?:\\.1(*\\"))*"}3 # 匹配 双 引 号 字符 串 
$text =~ s/(SDOUBLE) | $COMMENT/$1/g; 

U W Nal 


唯一 的 区 别 在 于 : 

e 设 置 了 捕获 型 括号 ， 如 有 果 能 够 匹配 双 引 号 字符 串 对 应 的 多 选 分 
文 ， 则 $1 会 保存 对 应 的 内 容 。 如 有 果 匹 配 通 过 注释 多 选 分 文 ，$1 为 空 。 

e 把 replacement 的 值 设 置 为 $1。 结 果 就 是 ， 如 果 双 引号 字符 串 匹 配 
了 ，replacement 束 等 于 双 引 号 字符 串 HA R EMRE, BRA 
会 进行 任何 修改 (不 过 存在 伴随 效应 ， 即 一 次 性 匹配 这 个 双 引 号 字符 
串 ， 直 接 到 达 其 结尾 ， 这 就 是 把 它 放 在 多 选 结构 首位 的 原因 ) 。 男 一 


方面 ， 如 果 匹 配 注释 的 多 选 分 支 能 够 匹配 ，$1 为 空 ， 所 以 会 按照 期 望 
删除 注释 〈 注 8) 。 

最 后 我 们 还 必须 小 心 对 付 单 引号 的 C 常 量 ， 例 如 Ne。 这 很 容易 
只 需要 在 括号 内 添加 另外 一 个 多 选 分 支 。 如 果 我 们 希望 去 掉 C++、 
Java ` CH RANER, WAE _W[Am 关 ， 作 为 第 四 个 多 选 分 支 ， 列 
在 括号 外 。 


SCOMMENT = qr{/\* [**] *\*+ (2: [*/*] [^*]*\*+)*/}; # 匹配 注释 


SCOMMENT2 = qr{//[*\n]*}; # 匹配 C++ // 注释 

SDOUBLE = qr{"(?:\\.1(14\\"])*"}; # ERAI +H HS 

SSINGLE = qr{'(2?:\\.1(*"\\])*'}; # 匹配 单 引 号 字符 事 

$text =~ s/(SDOUBLE|$SINGLE) | $COMMENT | $COMMENT2/$1/9g; 
_———— _ 


FARRER of le: 引 敬 检查 文 本 ， 迅 速 捕 获 〈 如 果 合 适 ， 则 是 删 
除 ) 这 些 特殊 结果 。 在 我 的 老 机 器 (配置 大 概 停留 在 1997 年 的 水 平 ) 
上 ，Perl 脚 本 在 16.4 秒 的 时 间 内 去 挥 了 16MB，500 000 行 的 测试 文件 中 
的 注释 。 这 已 经 很 快 了 ， 不 过 我 们 仍然 需要 提高 速度 。 


引导 展 好 的 正则 表达 式 速度 很 快 


A Well-Guided Regex is a Fast Regex 

暂停 一 会 儿 ， 我 们 能 够 直接 控制 这 个 正则 引擎 的 运转 ， 进 一 步 提 
高 匹配 速度 。 来 考虑 注释 和 字符 串 之 间 的 普通 C 代码 。 在 每 个 位 置 ， 
正则 引擎 都 必须 笑 试 四 个 多 选 分 文 ， 才 能 确认 是 否 能 匹配 ， 只 有 四 个 
多 选 分 文 都 匹配 失败 ， 它 才 会 前 进 到 下 一 个 位 置 ， 这 些 复杂 工作 其 实 
是 不 必要 的 。 

我 们 知道 ， 如 有 果 其 中 任何 一 个 多 选 分 文 有 机 会 匹配 ， 开 头 的 字符 
都 必须 是 矢 线 、 单 引号 或 是 双 引 号 。 这 些 字 符 并 不 能 保证 能 够 匹配 ， 
但 是 不 满足 这 些 条 件 绝对 不 能 匹配 。 所 以 ， 与 其 让 引擎 缓慢 而 痛 吉 地 
认识 到 这 一 点 ， 不 如 把 [A "由 作为 多 选 分 支 ， 直 接 告 诉 引 擎 。 实 际 
上 ， 同 一 行 中 任何 数量 的 此 类 字符 都 能 归 为 一 个 单元 ， 所 以 我 们 使 用 
TA" +, 。 如 果 你 记得 无 休止 匹配 ， 可 能 会 为 添加 的 加 号 担心 。 确 
实 ， 如 果 在 某 种 (...) 类 循环 中 ， 它 可 能 是 很 大 的 问题 ,但 是 在 这 个 


例子 中 ， 它 完全 没有 问题 《之 后 没有 元 素 强迫 它 回溯 ) ， 所 以 ， 添 
加 : 


SOTHER = qr{[^"'/]}; # 可 能 作为 某 个 多 选 结构 开头 的 字符 
$text =~ s/ ($DOUBLE | $SINGLE | $SOTHER+) | $SCOMMENT | SCOMMENT2/$1/g; 
We 


出 于 某 些 我 们 即将 要 看 到 的 原因 ， 我 把 加 号 量词 放 在 $OTHER 之 
后 ， 而 不 是 $OTHER 的 内 容 之 中 。 

我 重新 进行 了 性 能 测试 ， 出 平 意料 的 是 ， 这 样 可 以 减少 75% 的 时 
间 。 通 过 改进 ， 这 个 表达 式 节省 了 频繁 尝试 所 有 多 选 分 支 的 大 部 分 时 
间 。 仍 然 有 些 情况 ， 所 有 多 选 分 支 都 不 能 匹配 (例如 和 c,/3.14) ， 
此 时 ， 我 们 只 能 接受 驱动 过 程 。 

不 过 ， 事 情 还 没有 结束 ， 我 们 仍然 可 以 让 表达 式 更 快 : 

e 在 大 多 数 情 况 下 ， 最 常用 的 多 选 分 支 可 能 是 '$OTHER+， ， 所 以 
我 们 把 它 排 在 第 一 位 。POSIX NFA 没 有 这 个 问题 ， 因 为 它 总 会 检查 所 
有 的 多 选 分 支 ， 但 是 对 于 传统 型 NFA， 它 只 要 找到 匹配 就 会 停止 ， 为 
什么 不 把 最 可 能 出 现 的 多 选 分 支 放 在 第 一 位 呢 ? 

e 一 个 引用 字符 串 匹 配 之 后 ， 在 其 他 字符 串 和 注释 匹配 之 前 ， 很 可 
能 出 现 的 就 是 8OTHER 的 匹配 。 若 在 每 个 元 素 之 后 都 添加 $OTHER 
大， ， 就 能 够 告诉 引 警 下面 必须 匹配 $OTHER ， 而 不 用 马上 进入 下 一 
轮 /g 循 环 。 

这 与 消除 循环 的 技巧 是 很 相似 的 ， 此 技巧 之 所 以 能 提高 速度 ， 是 
因为 它 主 导 了 正则 引擎 的 匹配 。 这 里 我 们 使 用 了 关于 全 局 匹配 的 知识 
来 进行 局 部 优化 ， 给 引擎 提供 快速 运转 必须 的 条 件 。 

非常 重要 是 ， '$OTHER*, 是 加 在 每 个 匹配 引用 字符 串 的 子 表达 
式 之 后 的 ， 而 之 前 的 SOTHER ( 排 在 多 选 结 构 最 前 面 的 ) 必须 用 加 号 量 
词 。 如 果 你 不 清楚 原因 ， 请 考虑 下 面 的 情况 : 添加 的 是 $6OTHER+， 而 
某 行 中 有 两 个 连 在 一 起 的 双 引 号 字符 串 。 同 样 ， 如 果 开 头 的 $SOTHER 使 
用 星 号 量词 ， 则 任何 情况 都 能 匹配 。 

最 终 得 到 ; 


' (SOTHER+ | SDOUBLESOTHER* | $SINGLESOTHER*) | SCOMMENT | SCOMMENT2， 


这 个 表达 式 能 把 时 间 再 减少 5%。 

回 过 头 来 想 想 最 后 两 个 改动 。 如 采 每 个 添加 的 $OTHER 大 匹配 了 过 
多 的 内 容 ， 开 头 的 SOTHER+ 《我 们 将 其 作为 第 一 个 多 选 分 文 ) 只 有 两 
种 情况 下 能 够 匹配 : 1) 它 匹 配 的 文本 在 整个 %/.…/,…./g 的 开头 ， 此 时 还 
轮 不 到 引用 字符 串 的 匹配 ，2) 在 任意 一 段 注释 之 后 。 

你 可 能 会 想 * 从 第 二 点 考虑 ， 我 们 不 妨 在 注释 后 添加 $OTHER+”。 
这 很 不 错 ， 只 十 我 们 希望 用 第 一 对 括号 内 的 表达 式 匹配 所 有 布 望 保留 
的 文本 一 一 不 要 把 孩子 连 洗澡 水 一 起 倒 挥 。 

那么 ， 如 有 果 $OTHER+ 出 现在 注释 之 后 ， 我 们 是 否 需要 把 它 放 在 开 
头 呢 ? 我 觉得 ， 这 取决 于 所 应 用 的 数据 一 一 如 有 果 注 释 比 引用 字符 串 更 
多 ， 答 案 束 是 肯定 的 ， 把 它 放 在 第 一 位 有 意义 。 否 则 ， 我 束 会 把 它 放 
后 面 。 从 测试 数据 来 看 ， 把 它 放 在 前 面 的 效果 更 好 。 排 在 后 面 大 约会 
损失 最 后 的 修改 一 半 的 效率 。 


完工 


Wrapup 
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应 该 消除 循环 ， 本 章 已 经 花 了 很 长 的 篇 幅 讲解 这 个 问题 。 所 以 ， 最 后 
我 们 要 把 这 两 个 子 表达 式 替 换 为 : 

SDOUBLE = qr{"[^\\"]* (2: \\. [^\\"]*)*"}; 
S$SINGLE = qr{' (OTANI C2EN oe lO TANT YF he 

这 样 修改 节省 了 15% 的 时 间 。 这 些 细小 的 修改 把 匹配 的 时 间 从 16.4 
秒 缩短 到 2.3 秒 ， 提 升 了 7 倍 。 

最 后 的 修改 还 说 明 ， 用 变量 来 构建 正则 表达 式 多 人 么 方便 。 
$DOUBLE 可 以 作为 单独 的 元 素 独立 出 来 ， 可 以 改变 ， 而 不 需要 修改 整 
个 正则 表达 式 。 虽 然 还 会 存在 一 些 整体 性 问题 (包括 捕获 文本 括号 的 
计数 ) ， 但 这 个 技巧 确实 很 方便 。 

这 种 便利 是 由 Perl 的 qr/.../ 操 作 符 提供 的 ， 它 表示 与 正则 表达 式 相 
天 的 “字符 串 ”。 其 他 语言 没有 提供 相同 的 功能 ， 但 是 大 多 数 语言 提供 
了 便于 构建 正则 表达 式 的 字符 串 。 请 参见 101 页 的 “作为 正则 表达 式 的 


ey hte 


FIFE” o 


下 面 是 原始 的 正则 表达 式 ， 看 到 它 ， 你 肯定 会 觉得 上 面 的 办 法 非 
单方 便 。 为 了 便于 印刷 ， 我 把 它 分 为 两 行 : 

(EA AH WO TK OM TAA OAT A A 

CAAMA ASAA [AK] KV K+Q21N * A * ] H) 
*///[Nn]* 


总 结 : 开动 你 的 大 脑 


In Summary:Think! 

在 本 章 的 结尾 讲 个 故事 ， 我 希望 读者 能 够 明日 ， 在 NFA 中 使 用 正 
则 表达 式 时 ， 稍 微 动 动脑 筋 能 市 来 多 大 的 收益 。 在 使 用 GNU Emacs 
上 时， 我 希望 用 一 个 正则 表达 式 来 找 出 某 种 类 型 的 缩写 ， 例 
如 “donrt>”、“Tm> 和 “we 之 类 ， 同 时 必须 忽略 与 单词 邻接 的 单 引 号 。 
我 想 用 N<\w 来 匹配 单词 ， 然 后 是 '〈[tdmjlrellllve) ，。 这 办 法 没 
有 问题 ， 但 是 我 意识 到 ， 使 用 <Nw+， ERE, AA BRA By 
\we BERIT, BORIS ime Ww, \wt i AE DA, Pr 
以 这 个 正则 表达 式 检查 并 没有 增加 新 的 信息 ， 除 非 我 希望 得 到 匹配 的 
文本 〈 在 这 里 并 不 需要 ， 我 们 只 需要 找到 这 个 位 置 ) 。 单 独 使 用 \w 的 
正则 表达 式 的 速度 是 原来 的 10 倍 。 

正 因 如 此 ， 一 点 点 的 思考 就 可 以 带 来 巨大 的 收获 。 我 希望 本 章 能 
够 引发 你 的 这 点 思考 。 


第 7 章 Perl 


Perl 

Perl 在 本 书 中 的 分 量 很 重 ， 这 样 安排 有 充分 的 理由 。Perl 很 流行 ， 
提供 的 正则 表达 式 特 性 很 丰富 ， 容 易 下 载 到 ， 也 很 容易 入 门 ， 而 且 在 
Windows、Unix 和 Mac 等 各 种 平台 上 都 有 提供 。 

Perl 的 某 些 程序 结构 看 上 去 类 似 C 和 其 他 传统 编程 语言 ， 但 也 只 是 
看 上 去 像 而 已 。Pen 解 决 问题 的 方式 一 -Penl 之 道 (The Perl Way) 
是 不 同 于 传统 语言 的 。Perl 程 序 的 设计 通常 使 用 传统 的 结构 化 和 
面向 对 象 的 概念 ， 但 是 数据 处 理 通 常 严重 依赖 正则 表达 式 。 我 认为 完 
全 可 以 这 么 说 : 正则 表达 式 在 所 有 的 Perl 程 序 中 都 不 可 或 缺 。 无 论 这 
个 程序 是 100 000 行 ， 还 是 一 行 : 

%perl-pi-e's{ ([-+]? \dt+ (\\d*) ? ) F\b}{sprintf " %.0fC ”， 

($1-32) 类 5/9}eg' 类 .txt 这 个 程序 检查 所 有 的 .txt 文 件 ， 将 其 中 的 华氏 

温度 转换 为 摄氏 温度 (还 记得 第 2 章 开 头 的 例子 吗 ) 。 

本 章 内 容 

本 章 讲 解 Pen 的 正则 表达 式 的 方方面面 〈 注 1) ， 包 括 正则 流派 的 
细节 ， 和 使 用 正则 表达 式 的 运算 人 符 。 本 划 从 基础 开始 介绍 相关 的 细 
TT, (APD ee BURY Perl 有 基本 的 理解 (如 果 你 看 过 第 2 章 ， 看 
本 章 就 没 多 大 问题 ) 。 那 些 没 有 详细 讲解 的 细节 ， 我 会 一 笔 带 过 ， 也 
不 会 费 工 夫 来 讲解 语言 中 与 正则 表达 式 不 相关 的 细节 。 在 手边 准备 一 
本 Perl 的 文档 会 很 有 帮助 ， 或 者 O'Reilly 的 Programming Pen 也 行 。 

即使 你 目前 对 Perl 还 不 够 了 解 也 不 要 紧 ， 重 要 的 是 要 有 进一步 学 
习 的 欲望 。 从 任何 方面 来 说 ， 阅 读本 章 都 不 是 件 轻松 的 事情 。 我 的 目 
的 不 是 市 读者 入 门 ， 而 是 教 给 读者 其 他 Perl 的 书 中 没 提供 的 有 用 知 
识 : 为 了 保持 本 章 内 容 的 整体 性 和 连贯 性 ， 我 不 会 忽略 一 些 重要 的 细 
记 。 某 些 问题 很 复杂 ， 细 节 很 多 ， 如 果 不 能 马上 理解 也 不 必 担 心 。 我 
推荐 读者 第 一 遍 阅 读 时 只 要 了 解 全 面 的 图 景 ， 需 要 的 时 候 再 返 过 来 查 
阅 。 

下 面 列 出 了 本 章 的 结构 作为 指导 :; 


e“Perl 的 正则 流派 ”(〈E286) 考察 了 Perl 的 正则 表达 式 提 供 的 丰 
富 的 元 字符 ， 以 及 正则 文字 提供 的 附加 特性 。 

e@“ 正 则 相关 的 Perl 教义 (Perlism) ” (293) 考察 了 在 Perl 中 使 
用 正则 表达 式 的 一 些 重要 问题 。 详 细 介 绍 了 “动态 作用 域 (dynamic 
scoping) ”和 “表达 式 应 用 场合 (expression context) ”， 并 解释 了 它们 
与 正则 表达 式 之 间 的 紧密 联系 。 

e 正 则 表达 式 必须 与 应 用 方式 结合 起 来 才 有 价值 ， 所 以 下 面 各 节 
讲解 了 Perl 中 神奇 的 正则 表达 式 控制 结构 : 

gr/.../ 运 算 符 和 Regex 对 象 ( 呈 303) 

Match 运 算 符 (306) 

Substitution 运 算 符 (318) 

Split 运 算 符 (321) 

e“ 巧 用 Perl 的 专 有 特性 ”( 呈 326) 介绍 了 Perl 独 具 的 正则 改良 功 
能 ， 包 括 在 正则 表达 式 的 应 用 过 程 中 执行 任意 Perl 代 码 的 功能 。 

e “Perl 的 效率 问题 ”(E347) 详细 讲解 了 每 个 Perl 程序 员 关 注 的 
问题 。Perl 使 用 传统 型 NFA 引 警 ， 所 以 我 们 可 以 充分 利用 第 6 章 介绍 的 
各 种 技巧 。 当 然 ， 还 有 一 些 专属 于 Perl 的 问题 会 强烈 地 影响 到 Perl 应 用 
正则 表达 式 的 方式 和 速度 。 这 些 都 会 有 所 涉及 。 

前 几 章 出 现 的 Perl 

本 书 的 大 部 分 内 容 中 都 出 现 过 Perl: 

e 第 2 章 包括 Perl 的 入 门 知 识 ， 给 了 许多 例子 。 

e 第 3 章 介绍 了 Per 的 历史 (88) ， 用 Perl 语 言 介绍 了 许多 应 用 正 
则 表达 式 的 问题 ， 例 如 字符 编码 (包括 UnicodeF105) 、 匹 配 模式 

(110) ， 以 及 元 字符 (113) 。 

e 第 4 章 解密 了 Perl 使 用 的 传统 型 NFA 引 警 。 对 Pen 用户 来 说 这 一 章 
非常 重要 。 

e 第 5 章 承接 第 4 章 ， 包 含 许 多 讨论 过 的 例子 。 其 中 许多 是 以 Perl 给 
出 的 ， 即 使 有 些 例子 不 是 以 Pen 给 出 的 ， 它 们 的 原理 也 适用 于 Perl 。 

e 第 6 章 对 效率 感 兴趣 的 Perl 程 序 员 应 该 仔细 阅读 。 
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容易 看 懂 的 伪 码 。 本 章 我 会 使 用 Perl 风 格 的 代码 来 举例 。 


作为 语言 组 件 的 正则 表达 式 


Regular Expressions as a Language Component 

Perl 语 言 引 人 注目 的 特性 之 一 束 是 ， 正 则 表达 式 在 语言 之 中 文 持 完 
美 地 内 建 。Penl 没 有 提供 独立 的 正则 表达 式 应 用 函数 ， 它 的 正则 表达 式 
的 运算 符 ， 包 含 在 构成 语言 的 其 他 丰富 的 运算 符 和 结构 之 中 。 

Perl 具 有 强大 的 运用 正则 表达 式 的 能 力 ， 人 们 可 能 认为 ， 这 需要 数 
量 繁多 的 运算 符 ， 但 是 ，Perl 事 实 上 只 提供 了 四 个 与 正则 表达 式 有 关 的 
运算 符 ， 以 及 少量 的 相关 元 素 〈 见 表 7-1) ° 

表 7-1: Perl 中 与 正则 表达 式 相关 的 对 象 概览 


含义 
正则 表达 式 的 解释 方式 (7292, 348) 


引擎 认定 的 目标 字符 事 (292) 
其 他 (7311, 315, 319) 


正则 表达 式 相关 运算 符 


m/regex/mods (306) 
s/regex/replacement/mods (#318) 
qr/regex/mods (*303) 

split(*+) (7321) 


编译 指示 (Pragma) 匹配 完成 之 后 的 变量 (=299) 
捕获 的 文本 
编号 最 小 /最 大 的 81、S$S2，… 


use charnames *:full’; (7290) "~ 


use overload; (7341) 


表示 目标 字符 囊 中 
use re 'eval'; (7337) 5 r Tris 
use re ‘debug’; (T381) $ $88 区 配 之 前 之 申 和 之 后 的 偏 移 值 数组 (最 好 不 
用 ， 参见 “Perl 的 效率 问题 ” 356) 


相关 函数 相关 变量 
le lefirst uc ucfirst (290) 
pos (7313) quotemeta (7290) 
reset (7308) study (7359) 


Perl 的 功能 非常 强大 ， 但 它 提 供 的 运算 从 数量 非常 少 ， 这 样 有 利 也 
AE o 


默认 的 目标 字符 串 (7308) 
ARABER (302) 


Perl 的 长 处 


Perl's Greatest Strength 

Per 最 大 的 优势 可 能 在 于 ，Perl 的 运算 符 和 函数 提供 了 丰富 的 选 
项 。 根 据 应 用 场合 的 不 同 ， 它 们 的 行为 也 不 同 ， 当 然 ， 这 通 第 是 执行 
者 在 那 种 场合 目 然 想到 的 控 作 。O’Reilly 的 Programming Perl 说 得 很 绝 
对 : “总 的 来 说 ，Perl 的 运算 符 可 以 做 你 希望 的 任何 事情 ......”。 正 则 匹 
配 运算 符 m/regex/ 提 供 了 许多 神奇 的 功能 ， 会 根据 应 用 的 场合 、 方 式 以 
及 修饰 符 的 不 同 而 变化 。 


Perl 的 短处 


Perl's Greatest Weakness 

表达 能 力 太 强 ， 也 是 Perl 最 大 的 毛病 之 一 。 哪 人 只 是 进行 极 小 的 
修改 ， 也 有 数 不 清 的 特殊 情况 、 条 件 和 场合 在 你 眼皮 底下 发 生变 化 ， 
但 却 不 会 通知 你 一 一 不 经 意 之 间 就 切换 到 另 一 种 应 用 场合 〈 注 2) 。 在 
Programming Per 这 本 书 中 ， 上 面 那 句 话 的 下 半 句 是 “只 是 缺乏 一 致 性 

(consistency) ”。 当 然 ， 对 计算 机 科学 来 说 ， 固 定 、 一 致 而 值得 依赖 

的 接口 是 可 取 的 。Perl 的 强大 功能 在 有 经 验 的 用 户 手 里 可 能 是 强大 的 武 
ar, (ATR ULAR, MAI Perl 技能 不 断 增 长 ， 是 以 不 断 地 射 伤 目 己 的 
腿脚 为 代价 的 。 


Perl 的 正则 流派 


Perl's Regex Flavor 

下 一 页 的 表 7-2 概 要 描述 Perl 的 正则 风格 。 以 前 ，Perl 的 许多 元 字符 
是 其 他 系统 不 文 持 的 ， 但 是 经 过 许多 年 之 后 ， 其 他 系统 接受 了 许多 Perl 
的 创新 。 这 些 贡 见 的 特性 在 第 3 章 的 概 贤 里 有 描述 ， 但 是 Pel 还 有 专属 
和 己 的 元 素 ， 会 在 本 章 后 面 讲解 R 7-2 禾 盖 了 将 要 讲解 的 各 个 元 
素 

下 面 是 对 表格 的 补充 : 

ol\b 只 有 在 字符 组 内 部 才 是 退 格 符 的 向 记 法 。 在 字符 组 外 部 ，\b 表 
示 单 词 分 界 符 (133) ° 

八进制 转 义 接收 2 到 3 位 的 数值 。 

[xnum | 十 六 进 制 转 义 接收 两 位 数字 〈 也 可 以 是 一 位 数字 ， 但 是 
会 报警 ) 。 \x{num} | 能 接收 任意 长 度 的 十 六 进 制 数 。 
表 7-2: Per 的 正则 流派 概览 


字符 组 缩 赂 表示 法 ” 


MS (c) | Na [\b] \e \£ \n \r \t \octal \xhex \x{hex} \echar 
字符 组 及 相关 结构 

118 字符 组 : pel [>e] (可 能 包括 类 似 POSIX 的 [:alpha:] Aik, 7127) 
2119 RRITA RA FA RS (使 用 /s 时 能 匹配 所 有 字符 ) 

#120 Unicode 组 合 字符 序列 ; \x 

#120 单个 字 节 (AR): \C 


#120 (c) 字符 组 缩 咯 表示 法 "*: \w \d \s \W \D \s 
#121 (c) Unicode 属性， 字母 表 和 区 块 "; \p{Prop) \P{Prop) 


锚 点 及 其 他 零 长 度 断 言 

* 129 行 /字符 串 起 始 位 置 ; ^ NA 

#129 IFR p RE: $ \z \2 

#315 前 一 次 匹配 的 结束 位 置 : \G 

s133 单词 分 界 符 “: \b \B 

mr133 ILS: (Perr) (21e) (?<=…) (2?<1.) 

注释 和 模式 修饰 符 

7135 HAMS: (?:imods-mods), EH HHFA sm i (7292) 
w 135 模式 修饰 作用 范围 ; (2mods-mods: »*+) 

3136 注释 ; (?#…) we 【( 若 使 用 /x， 则 注释 从 “# Fie, IRRE) 
分 组 、 捕 获 . 条 件 判断 和 控制 

137 捕获 型 括号 : (e) \1 \2.. 

& 137 仅 用 于 分 组 的 括号 ; (?:…) 

#139 国 化 分 组 : (?>…) 

#139 多 选 结构 : | 

= 140 条 御 判 断 ; (2if then| else) 一 一 让 部 分 可 以 为 肉 谈 代码 、 环 视 ， 或 是 (num) 
141 匹配 优先 量词 : * +? {n} {n,} {x,y} 

14) 2A EB, *2 +2 33 {n}? (n,}? {x,y}? 

#327 ARAB: (2403) 

#327 动态 表达 式 : (274°) 

专属 于 正则 文字 的 功能 


#289 (c) 变量 插值 :$name @name 

#290 (c) 大 小 写 转 换 : \L Nu 

#290 (c) Ke SHRM: U \L WA 

290 (c) 文字 文本 范围 : \Q…\E 

290 (c) 命名 的 Unicode 字符 :NN{namej} 一 一 可 选 出 现 ， 泰 见 第 290 页 


(c) 表示 可 以 在 字符 组 内 部 使 用 C-O, KRHAAS 


o2\w > \d > \s 2 REE 324FUnicode 。 

Perl 的 \s 不 能 匹配 ASCII 的 垂直 制 表 符 (115) 

03 Pen 的 Unicode 文 持 针 对 的 是 Unicode Version 4.1.0 ° 

Unicode 字 母 表 也 能 文 持 。 字 母 表 和 属性 名 可 以 有 “前 绥 ， 但 并 非 
必须 (125) 。 区 块 名 可 以 有 ‘Im’ 前 级 ， 但 只 有 在 区 块 和 字母 表 的 名 
字 发 生 冲 突 时 才 必 须 使 用 。 

Perl 也 支持 '\p{L&}, ` '\p{Any}, 、'\p{All} 、'\p{Assigned} , 
和 '\p{Unassigned} | 属性 。Perl 支持 例如 '\p{Letter} | 的 长 属性 名 。 名 
字 的 各 个 单词 之 间 可 能 是 空格 、 下 画 线 ， 或 者 什么 也 没有 ， (例如 
 \p{Lowercase_Letter}  ， 也 可 能 写作 \p{Lowercase Letter}, ) 或 者 是 
'\p{Lowercase-Letter}, ) ， 为 了 前 后 一 致 ， 我 推荐 使 用 第 123 页 表格 中 
的 长 命名 。 

Mp{^...} 等 价 于 PL...) 。 

o4 单词 分 界 符 完 全 文 持 Unicode 。 

o5 顺序 环视 可 能 包含 捕获 型 括号 。 

逆序 环视 中 的 子 表达 式 必 须 匹配 固定 长 度 的 文本 。 

co6/X 人 和 修饰 符 只 能 识别 ASCII 空 日 字符 。/Mm 只 对 换行 待 有 影响 ， 而 且 
不 是 所 有 的 Unicode 

换行 符 。 

/i 能 够 在 Unicode 中 正常 工作 。 

所 有 的 元 字符 并 不 是 生 而 平等 的 。“ 正 则 元 字符 ”没有 得 到 正则 引 
擎 的 文 持 ， 但 Pen 的 正则 文字 预 处 理 机 制 能 对 付 。 


正则 运算 符 和 正则 文字 


Regex Operands and Regex Literals 


表 7-2 最 下 面 的 条 目标 注 有 “专属 于 正则 文字 *。 正 则 文字 (regex 
literal) 就 是 mregex/ 部 分 中 的 “regex”， 虽 然 平 时 称 其 为 “正则 表达 式 ”， 
但 在 ‘分 隔 符 之 间 的 部 分 是 有 自己 的 解析 规则 。 用 Perl 的 行 话 来 说 ， 正 
则 文字 就 是 “表示 正则 含义 的 双 引 号 字符 串 (regex-aware double-quoted 


string) ”， 及 处 理 之 后 传递 给 正则 引擎 的 结果 。 正 则 文字 处 理 机 制 提供 
了 特殊 的 功能 来 构建 正则 表达 式 。 

举例 来 说 ， 正 则 文字 提供 了 变量 插值 功能 。 如果 变量 $num 的 值 是 
20， 代 码 m/: {$num}: /得 到 的 就 是 : .{20}: ，。 这 样 可 以 根据 需要 
即时 构建 正则 表达 式 。 正 则 文字 的 男 一 功能 是 大 小 写 自动 切换 展开 ， 
\U...\E 可 以 保证 其 中 的 字母 均 为 大 写 。 比 如 ，m/abc\Uxyz\E/ 得 到 正则 
表达 式 abcXYZ | 。 这 个 例子 有 点 做 作 ， 如 果 需 要 使 用 abcXYZ | ， 
应 该 直接 输入 my/abcXYZ/， 但 是 这 种 功能 结合 变量 插值 就 很 有 用 : 如果 
变量 $tag 包含 字符 串 “title”， 则 代码 mt{</\UsStag\B>} 得 到 </TITLE>] o 


除 正则 文字 之 外 还 有 什么 呢 ? 我 们 可 以 把 字符 串 (或 者 任何 表达 
式 ) 当 作 正则 运算 元 ， 比 如 : 


$MatchField = "^Subject:"; # 普通 字符 串 赋 值 


if ($text =~ SMatchField) { 


当 $MatchField H fF =~ Wie BoM, E AY {Be wt Be iE E 
(interpreted) 为 正则 表达 式 。 这 里 只 能 “解释 ”普通 的 正则 表达 式 ， 所 

以 不 支持 只 作用 于 正则 文字 的 变量 插值 和 '\Q...\E, ° 

下 面 的 例子 值得 思考 ， 如 果 把 : 

$text=~$MatchField 

BH: 

$text=~m/$MatchField/ 

结果 完全 一 样 。 这 里 的 正则 文字 只 包含 一 个 元 素 一 一 变量 
$MatchField。 正则 文字 中 插值 变量 的 值 不 会 被 当 作 正则 文字 处 理 ， 所 
以 变量 内 的 \U...\E 和 $var 之 类 不 会 被 识别 (第 292 页 说 明了 正则 文学 的 
处 理 细节 ) 。 

如 果 正 则 表达 式 在 程序 的 执行 期 间 需 要 多 次 用 到 ， 那 么 正则 运算 
元 采用 字符 串 或 变量 插值 的 效率 差距 就 很 明显 。 第 348 页 讨论 了 这 个 问 
题 。 

正则 文字 支持 的 特性 

正则 文字 提供 下 面 的 特性 : 


e 变 量 插值 正则 表达 式 中 以 $ 和 @ 开 头 的 变量 会 被 替换 为 实际 变量 
的 值 。$ 变 量 插入 一 个 简单 的 纯 量 值 (scalar value) 。 以 @ 开 头 的 插入 
数组 或 者 数组 的 一 部 分 ， 以 空格 分 隔 各 个 元 素 (其 实 是 以 $" 变量 作 分 
隔 符 ， 它 的 默认 值 是 空格 ) 。 

在 Perl 中 ，‘%’ 引 入 一 个 散 列 变量 (hash variable) ， 但 是 在 字符 串 
中 插入 一 个 散 列 变量 并 没有 太 大 的 意义 ， 所 以 Perl 不 支持 % 搬 值 。 

e 命 名 的 Unicode 字 符 如 果 程 序 中 包含 “use charnames': full'; ”, W 
可 以 用 \N{name} 序 列 引 用 Unicode 字 符 。 例 如 ，\N{LATIN SMALL 
LETTER SHARP S} 匹 配 “R”。 在 Perl 的 unicore 目录 下 的 UnicodeData.txt 
中 可 以 找到 Perl 文 持 的 Unicode 字 符 列 表 。 下 面 的 代码 能 够 报告 文件 的 
位 置 

use Config; 

print "SConfig{privlib}/unicore/UnicodeData.txt\n"; 

“use chamames': full’; "*RA Amid, RA Mice ‘full’ A MAB 
号 ， 果 真如 此 的 话 ，\N{...} 束 不 能 正常 工作 。 同 样 ， 如 有 果 使 用 了 下 面 
介绍 的 正则 表达 式 重 载 ，\N{...} 也 不 能 正常 工作 。 

e 大 小 写 转 换 前 缀 4 和 Nu 能 够 把 后 面 的 字符 转换 为 小 写 或 大 写 形 
式 。 通 常 我 们 使 用 此 功能 来 转换 插值 变量 的 第 一 个 字符 。 举 例 来 说 ， 
如 果 变 量 $title 包含 “mr”，m/...\ustitle.../ 就 能 生成 正则 表达 式 “... 
Mr...., ° Perl 的 lcfirst () 和 ucfirst O 画 数 提供 了 同样 的 功能 。 

e。 大 小 写 转 换 范 围 \L 和 \U 能 够 把 后 面 所 有 的 字符 转换 为 小 写 或 大 
写 ， 其 作用 范 围 一 直到 表达 式 末 尾 ， 或 是 \E 为 止 。 同 样 是 $title，m/... 
\Us$title\E.../ 会 产生 正则 表达 式 『...MR....，。Perl 的 lc () 和 uc () 画 
数 提供 了 同样 的 功能 。 

我 们 可 以 把 这 两 者 结合 起 来 : 无 论 变 量 $title 采用 怎样 的 字母 组 
合 ，m/.…\L\ustitle\E.../ 都 会 得 到 Mr... e 

e 文 字 文 本 范围 \Q“ 转 义 (quote) ”正则 表达 式 元 字符 (也 就 是 在 它 
们 之 前 放 一 个 反 斜 线 ， 保 证 它们 只 作为 普通 的 字符 ) ， 其 作用 范围 直 
到 字符 串 的 结尾 ， 或 者 直到 \E。 它 能 转 义 正则 表达 式 元 字符 ， 但 不 能 
转 义 表示 变量 插值 的 正则 文字 \U， 当 然 也 不 能 转 义 \E。 奇 怪 的 是 ， 如 
果 反 和 斜 线 开头 的 字符 序列 不 能 识别 例如 \E 或 者 AH， 反 和 斜 线 也 不 会 裤 


转 义 。 即 使 是 \Q...E， 这 样 的 序列 也 会 导致 "anrecognized escape” # 
告 。 


在 实践 中 ， 这 些 限制 并 不 是 严重 的 缺陷 ，\Q...\E 通常 用 于 引用 插 
值 文本 ， 这 样 就 可 以 正确 转 义 所 有 的 元 字符 。 例 如 ， 如 果 $title 包 
售 “Mr.”， 那 么 代码 my..\QstitleE.../ 就 会 生成 正则 表达 式 .Mm.... ， 
我 们 要 的 就 是 这 样 一 一 希望 匹配 的 是 $title 中 的 字符 ， 而 不 是 $title 中 的 
正则 表达 式 。 

如 果 你 希望 在 正则 表达 式 中 包含 某 些 用 户 输入 的 数据 ， 这 非常 有 
用 。 举 例 来 说 ，mAQ$UserInputE/i 能 够 对 $UserInput 〈 作 为 字符 串 ， 而 
不 是 正则 表达 式 ) 中 的 字符 进行 不 区 分 大 小 写 的 搜索 。 

Perl 的 函数 quotemeta () 提供 了 与 \Q...E 等 价 的 功能 。 

ome 借助 重 载 ， 用 户 可 以 使 用 任何 期 望 的 方式 预 处 理 正则 文字 的 
文字 字符 。 这 是 概念 值得 讨论 ， 但 是 目前 的 实现 还 有 诸多 限制 。 关 于 
重 载 的 细节 讨论 请 参见 第 341 页 。 

使 用 自己 的 正则 表达 式 分 隔 符 

Perl 语 法 中 最 奇妙 (也 是 最 有 用 ) 的 特性 之 一 就 是 用 户 可 以 使 用 自 
已 的 正则 文字 分 隔 符 。 传 统 的 分 隔 符 是 斜 线 ， 例 如 my.../、s/.../.../ 和 和 
qr/.../， 不 过 还 可 以 使 用 除数 字 、 字 和 母 和 空格 之 外 的 字符 。 常 用 的 包 
括 : 


m! «+! m{-*"} 
m, ices. 
qrt m (*:*) 


IA PRA DRT : 

e 石 边 的 四 个 例子 具有 不 同 的 开始 -结束 分 阳 人 符 ， 而 且 可 能 饼 舍 
(也 就 是 说 ， 如 果 开 始 -结束 分 隔 符 匹配 恰当 ， 表 达 式 中 容许 包含 与 分 
阳 符 一 样 的 字符 ; 。 因 为 圆 括号 和 方 括号 在 正则 表达 式 中 经 常用 到 ，m 
(...) 和 m[.…] 可 能 不 如 其 他 更 有 吸引 力 。 使 用 /修饰 符 时 ， 可 能 出 现 
下 面 的 形式 : 


m { 
regex # comments 
here # here 

}x; 


也 可 以 使 用 某 种 组 合 标记 regex， 男 一 组 (如 果 你 喜欢 ， 也 可 以 用 
同样 的 ) 标记 replacement。 例 如 : 


s{.…}{.…} 
sfe}! 
S<.…> (+) 
s [.…]7/…/ 


如 果 这 样 做 了 ， 束 可 以 在 两 对 分 隅 符 之 间 插 入 空格 和 注释 。 第 319 
页 进一步 讲解 了 substitution 运 算 符 的 replacement 运 算 元 。 

e 对 match 运 算 符 来 说 ， 把 问号 作为 分 隔 符 有 其 特殊 价值 (禁止 更 
多 的 匹配 ) ， 这 一 点 在 下 一 节 讲解 关于 match 运 算 符 时 讨论 (308) 。 

e288 页 已 经 提 到 ， 正 则 文学 被 解析 成 “表示 正则 含义 的 双 引 号 字符 
串 ”。 如 果 用 单 引号 作 分 隔 符 ， 就 无 法 使 用 这 些 功能 。 使 用 m'...' 时 就 不 
会 进行 变量 插值 ， 实 时 修改 文本 的 结构 (比如 \Q..\E) 不 会 生效 ， 
\N{...} 也 无 法 使 用 。 也 许 在 使 用 包含 多 个 @ 的 正则 表达 式 时 m'...' 很 有 
价值 ， 因 为 这 样 可 以 不 需要 转 义 。 

如 果 进 行 match 控 作 ， 而 分 隔 符 是 斜 线 或 者 问号 ， 可 以 省 略 m， 也 

LAE: 


Stext =~ m/***/; 
$text =~ //; 


征 等 价 的 。 但 我 更 喜欢 明确 写 上 m 。 
正则 文字 的 解析 方式 


How Regex Literals Are Parsed 

大 多 数 情 况 下 ， 如 采用 户 “ 只 会 用 到 ”上 文 讲解 的 正则 文字 特性 ， 
就 不 需要 理解 Perl 将 它们 转换 为 真正 的 正则 表达 式 的 具体 细节 。 束 这 
一 点 来 说 ，Penl 直观 性 非常 方便 ， 但 是 许多 时 候 ， 了 解 细 世 并 无 坏处 。 
下 面 列 出 了 各 种 处 理 的 顺序 : 


1. 找 到 结束 分 隔 符 ， 读 入 修饰 符 〈 例 如 /i 之 类 ) 。 下 面 的 处 理 束 能 
判断 是 否 采 用 了 /x 之 类 的 模式 。 

2. 变 量 插值 。 

3. 如 果 使 用 了 正则 表达 式 重 载 ， 正 则 文字 的 每 个 部 分 都 会 区 给 重 载 
子 程序 来 处 理 。 各 部 分 由 插值 变量 分 隔 ; 插入 的 值 是 无 法 重 载 的 。 

如 琳 正 则 表达 式 没有 进行 重 载 ， 处 理 \N{...}。 

4. 应 用 大 小 写 转换 结构 “例如 \Q..\E) 

5. 把 结果 提交 给 正则 引擎 。 

以 上 是 程序 员 眼 中 的 处 理 ， 但 是 Perl 内 部 的 处 理 其 实 是 很 复杂 
No RAE a, BUD AAA IEAM CF, PORN be 
‘this$|that$ | 下 画 线 的 那 部 分 识别 为 变量 。 


正则 修饰 符 


Regex Modifiers 

Perl 的 正则 运算 符 容 许 在 正则 文字 的 结束 分 隔 符 之 后 添加 正则 修饰 
IF 【例如 my/...i、s/.../...ii 和 qr/.../i 中 的 i ) 。 所 有 运算 符 都 支持 的 核心 
修饰 符 一 共有 5 种 ， 详 见 表 7-3。 

头 四 种 在 第 3 章 已 经 介绍 过 ， 它 们 能 够 作为 模式 修饰 符 (6135) 
或 者 范围 模式 修饰 符 (135) ， 在 正则 表达 式 之 中 使 用 。 如 果 正 则 表 
达 式 内 部 出 现 了 修饰 符 ，match 运 算 符 也 用 到 了 修饰 符 ， 则 正则 表达 式 
内 部 的 修饰 符 的 优先 级 更 高 (从 另 一 方面 来 说 就 是 ， 一 旦 修饰 符 应 用 
到 正则 表达 式 内 部 的 某 些 元 素 ， 这 些 元 素 就 不 再 受 其 他 修饰 符 的 影 
nji) 


表 7-3: 所 有 正则 运算 符 可 用 到 的 核心 修饰 符 


fi 7110 进行 息 略 大 小 写 的 匹配 

| ”||] 宽松 排列 和 注释 模式 
rill 点 号 通 配 模式 

/m 7112 增强 的 行销 点 模式 


/o W348 仅 编 译 一 次 


第 五 个 核心 修饰 人 符 /0， 与 效率 有 很 大 的 天 系 。 此 问题 从 第 348 页 开 
人 讨论 。 

如 有 果 需 要 使 用 多 个 修饰 符 ， 只 需要 把 它们 并 排列 在 结束 分 隔 符 之 
后 即 可 ， 排 列 的 顺序 是 无 关 紧 要 的 ( 注 3) 。 请 注意 ， 斜 线 本 身 不 是 修 
饰 符 ， 你 可 以 使 用 m/<tile>/i、m|<tile>ji,， 或 是 m{ <tile> 上 i， 甚 至 
是 m< <title> >i。 不 过 在 讲解 修饰 符 时 ， 通 行 的 做 法 是 加 上 一 个 斜 
线 ， 例 如 “修饰 符 /i”。 


正则 表达 式 相 关 的 Perl 教 义 


Regex-Related Perlisms 

学 习 正 则 表达 式 ， 还 需要 掌握 许多 一 般 的 Perl 概 念 。 下 面 几 和 的 内 
容 包括 : 

e 应 用 场合 (context) Pel 的 重要 概念 之 一 就 是 ， 许 多 函数 和 运算 
符 在 不 同 应 用 场合 有 不 同 的 意义 。 例 如 ，Perl 的 while 循 环 希 望 接 收 一 
个 纯 量 值 (scalar value) 作为 判断 条 件 ， 但 对 于 print 语 句 希 望 接收 一 组 
值 (a list of value) 。 因 为 Perl 容许 表达 式 对 其 应 用 场合 进行 “ 响 
hv” (respond) ， 同 样 的 表达 式 在 不 同 的 应 用 场合 可 能 得 到 截然 不 同 的 
结果 。 

e 动 态 作 用 域 (dynamic scope) 大 多 数 编程 语言 都 支持 本 地 变量 和 
全 局 变量 ， 但 是 Perl 还 提供 了 男 一 种 复杂 功能 ， 称 为 动态 作用 域 。 动 态 
作用 域 会 临时 “保护 ”全 局 变量 ， 你 存 一 份 副 本 ， 稍 后 目 动 恢复 。 这 个 
复杂 的 概念 对 我 们 来 说 很 重要 ， 因 为 它 影响 到 $1 和 其 他 的 匹配 相关 变 


里 


表达 式 应 用 场合 


Expression Context 

context 对 Perl 来 说 是 很 重要 的 概念 ， 尤 其 对 match 运 算 符 来 说 更 是 
如 此 。 一 个 表达 式 可 能 出 现在 三 种 context 中 : 序列 (ist) 、 纯 量 值 

(scalar) 或 者 空 (void) ， 它 们 表示 表达 式 期 望 接收 的 参数 类 型 。 所 

LI, list context 说 明 表 达 式 期 望 获得 一 个 序列 。scalar context 说 明 表 达 
式 期 望 获得 单个 值 。 以 上 两 者 极为 常见 ， 而 且 对 使 用 正则 表达 式 非常 
有 价值 。void context 说 明 不 期 望 获得 任何 值 。 

看 下 面 两 个 赋值 : 


$s = expression one; 
@a = expression two; 


因为 $s 是 scalar 变 量 ( 它 用 来 保存 单个 的 值 ， 而 不 是 序列 ) ， 期 望 
简单 的 纯 量 值 ， 所 以 第 一 个 表达 式 的 应 用 场合 为 scalar context。 同 样 ， 


因为 @a 是 一 个 数组 ， 期 望 获得 一 个 list， 第 二 个 表达 式 的 应 用 场合 为 list 
context。 即 使 这 两 个 表达 式 完 全 等 价 ， 也 可 能 返回 完全 不 同 的 结 
产生 不 同 的 影响。 具体 情况 依 表达 式 而 是 。 

AR, localtime KRH E list context 中 ， 会 返回 一 组 值 ， 
表示 当前 年 ~、 月、 日 、 时 。 但 如 果 用 在 scalar context 中 ， 则 返回 文本 类 
型 的 当前 时 间 ， 比 如 ‘Mon Jan 20 22: 05: 15 2003’ ° 

男 一 个 例子 是 <MYDATA>> 之 类 的 IO 运算 符 ， 在 scalar context 
中 ， 它 返回 文件 的 下 一 行 ， 但 是 在 list context 中 ， 返 回 所 有 R RAY) 
行 。 

束 像 localtime 和 1/O 运 算 和 从 一样， 许多 Perl 的 结构 会 根据 应 用 场合 的 
不 同 返 回 不 同 的 值 ， 正 则 运算 符 同样 如 此 。 拿 match 运算 符 m/.../ 来 
说 ， 有 时 候 它 会 简单 地 返回 true/false 值 ， 有 时候 返回 一 组 匹配 结果 。 
所 有 的 细节 都 会 在 本 章 讲解 。 

强 转正 则 表达 式 

不 是 所 有 的 正则 表达 式 天 生 都 能 区 分 场合 的 ， 所 以 ， 如 果 某 个 应 
用 场合 中 正则 表达 式 无 法 提供 期 望 的 返回 类 型 ， 就 要 按照 Perl 的 规定 
处 理 。 为 了 把 方 桩 插入 圆 孔 ，Perl 会 “ 强 转 (contort) ”这 个 值 。 如 果 在 
list context 中 返回 的 是 scalar 值 ，Perl 会 生成 只 包含 单个 元 素 的 list。 这 样 
@a=42 就 等 于 @a= (42) 。 

另 一 方面 ， 把 list 转 换 为 scalar 却 没有 统一 的 规定 。 如 果 程 序 是 这 
样 : 

$var=($Sthis, &is,OxA, list’); 

12 SB FF El ACH ‘list’ 28 Svar ° WR ENE PA, 
例如 $var=@array， 则 返回 数组 的 长 度 。 

其 他 语言 用 不 同 的 术语 描述 这 种 处 理 ， 例 如 修正 (cast) 、 提 示 

(promote) 、 强 制 转换 (coerce) 或 转换 (convert) ， 但 是 我 认为 这 
些 词 都 已 经 具有 了 自己 的 意义 (有 点 令 人 讨厌 ) ， 不 适合 描述 Perl 的 做 
法 ， 所 以 我 使 用 “ 强 转 (contort) ” 


动态 作用 域 及 正则 匹配 效应 


Dynamic Scope and Regex Match Effects 


Perl 的 变量 分 为 两 类 〈 全 局 变量 和 私有 变量 ) ， 动 态 作 用 域 是 正确 
理解 它们 的 重点 ， 研 究 正 则 表达 式 时 也 需要 关注 此 概念 ， 因 为 它 关 系 
到 匹配 完成 之 后 信息 如 何 使 用 。 下 一 市 介绍 了 这 些 概 念 及 其 与 正则 表 
达 式 的 关系 。 

全 局 和 私有 变量 

总 的 来 说 ，Perl 提供 了 两 种 变量 : 全 局 的 和 私有 的 。 私 有 变量 使 用 
my (...) 来 声明 ， 全 局 变量 不 需要 声明 ， 在 使 用 时 会 自动 出 现 。 全 局 
变量 通常 在 程序 的 任何 地 方 都 是 可 见 的 ， 而 私有 变量 ， 按 照 语言 的 规 
定 只 有 在 它们 所 属 的 代码 块 之 内 才 是 可 见 的 。 也 就 是 说 ， 只 有 私有 变 
量 声明 所 在 的 代码 块 之 内 的 Perl 人 代码， 能 够 访问 私有 变量 。 

全 局 变量 的 使 用 则 很 普通 ， 只 是 有 的 特殊 变量 不 太 好 理解 ， 例 如 
$1`$_` @ARGB 之 类 。 普 通用 户 的 变量 是 全 局 的 ， 除 非 它 们 以 my 来 
声明 ， 否 则 即使 它们 “看 上 去 ”是 私有 的 ， 也 是 全 局 变量 。 按 照 Penl 的 规 
定 ，Package Acme: : Widget 中 的 全 局 变量 $Debug， 虽 然 有 完整 的 限 
定名 $Acme: : Widget: : Debug， 仍 然 是 一 个 全 局 变量 。 如 果 出 现 了 
use strict; ， 则 所 有 (不 包括 特殊 的 ) 全 局 变量 必须 使 用 完整 的 限定 
名 ， 或 者 通过 our 来 声明 (our 声 明 一 个 名 称 (name) ， 而 不 是 一 个 新 变 
量 ， 请 参考 Perl 的 文档 ) 。 

使 用 动态 作用 域 的 值 

动态 作用 域 (dynamic scoping) 是 个 值得 一 提 的 概念 ， 很 少 有 编程 
语言 提供 这 种 功能 。 下 文 会 讲解 它 与 正则 表达 式 的 关系 ， 人 简单 地 说 ， 
动态 作用 域 可 以 让 Perl 保 存 全 局 变量 的 一 个 副本 ， 在 某 个 代码 块 中 修改 
此 副本 ， 退 出 之 后 自动 恢复 原来 的 值 。 保 存 副 本 的 操作 就 称 为 生成 动 
态 作 用 域 〈creating a new dynamic scope) ， 或 者 本 地 化 

(localizing) 。 

使 用 动态 作用 域 的 原因 之 一 是 为 了 临时 改变 菜 些 保存 在 全 局 变量 
中 的 某 些 全 局 状态 。 举 例 来 说 ，package Acme: : Widget 提供 了 一 个 
调试 标志 位 (flag) ， 我 们 可 以 修改 全 局 变量 $Acme: : Widget: : 
Debug 来 启用 或 者 停 用 调试 功能 。 下 面 的 代码 可 以 临时 改变 此 标志 位 : 


local ($Acme::Widget::Debug) = 1; # 确保 启用 
# bi} Acme: :Widget::Debug 已 启用 ， 可 以 调试 


# SAcme::Widget::Debug 现在 恢复 到 原来 的 值 

local 函 数 的 命名 很 成 问题 ， 但 它 生 成 了 一 个 新 的 动态 作用 域 。 调 
用 local 并 没有 创造 新 的 变量 ，local 是 行为 ， 而 不 是 声明 。 在 全 局 变量 
之 前 ，local 做 了 三 步 处 理 : 

1. 在 内 部 保存 变量 值 的 副本 ; 

2. 把 新 值 赋予 到 变量 〈 无 论 是 undefi 还 是 传 给 local 的 值 ) ; 

3.local 代 码 块 执行 结束 之 后 ， 把 变量 恢复 到 之 前 的 值 。 

Eme, “local” 指 的 是 对 变量 的 修改 的 持续 时 间 。 对 本 地 化 的 变 
量 来 说 ， 持 续 时 间 束 是 代码 块 执行 的 时 间 。 如 果 代 码 块 中 调用 了 子 程 
序 ， 本 地 化 的 值 仍然 保留 (毕竟 ， 变 量 仍 然 是 一 个 全 局 变量 ) 。 它 与 
韭 本 地 化 的 全 局 变量 的 唯一 区 别 是 ， 在 代码 块 执行 完成 之 后 ， 之 前 的 
值 会 被 恢复 。 

local 对 全 局 变量 的 目 动 保存 和 恢复 比 想象 的 要 复杂 。 请 参考 表 7-4 
右 侧 ， 详 细 了 解 背 后 的 处 理 。 

为 方便 起 见 ， 我 们 也 可 以 给 本 地 变量 赋 一 个 值 local 

($SomeVar) ， 这 等 于 把 undef 赋 值 给 $SomeVar。 如 果 不 使 用 括号 ， 表 

示 强 制 使 用 scalar context ° 

举 个 实际 的 例子 ， 我 们 需要 调用 一 个 写 得 很 糟糕 的 落 数 ， 而 它 会 
产生 许多 “Use of uninitialized value” 的 警告 。 优 秀 的 Perl 程 序 员 都 会 使 用 
Penl 的 -w 选 项 来 解决 这 个 问题 ， 但 是 库 的 作者 

表 7-4: local 的 含义 


普通 Normal 程序 


EA 自动 恢复 到 之 前 的 值 
显然 没有 。 你 对 这 些 警 告 非常 恼火 ， 但 是 如 果 不 能 修改 程序 库 ， 

有 什么 其 他 简便 办 法 来 代 殖 -w 吗 ? 这 时 候 可 以 使 用 对 $AW 的 调用 的 

local， 即 时 关闭 警报 〈《AW 可 以 表示 为 两 个 字符 ， 脱 字符 和 “WwW'， 也 就 


是 ctrl+W) 。 


{ 
local $^W = 0; # 确保 关闭 警报 


UnrulyFunction (…) ， 


} 
# 退出 代码 块 ， 把 $^W 恢复 到 原来 的 值 
无 论 全 局 变量 $AW 是 什么 值 ， 调 用 local 保 存 都 会 为 其 你 存 一 份 内 部 
副本 。 然 后 $AW 被 用 户 置 为 0。 上面 提 到 的 糟 料 程 序 在 执行 时 ，Perl 检 
查 $AW， 发 现 其 值 为 0， 就 不 会 发 出 警报 。 在 函数 返回 时 ， 新 值 0 仍然 
有 效 。 
这 样 看 来 ， 不 用 local 的 话 似乎 也 没有 问题 。 不 过 ， 在 子 程序 返 
回 ， 代 码 块 退 出 时 ，$^AW 会 恢复 到 之 前 的 值 。 这 种 改变 是 本 地 的 、 即 
时 的 ， 只 在 代码 块 内 部 生效 。 按 照 表 7-4 右 侧 的 做 法 ， 用 户 可 以 手工 生 
成 和 返回 副本 ， 达 到 同样 的 效果 ， 但 是 local 更 为 方便 。 
考虑 在 其 他 情况 下 会 发 生 什 么 ， 比 如 用 my 替代 local ( 注 4) ° my 
会 新 建 一 个 变量 ， 其 初始 值 是 undef。 只 有 在 声明 的 代码 块 中 才 可 见 
(也 就 是 说 ， 在 my 和 它 所 在 的 代码 块 结束 之 间 ) 。 它 不 会 改变 、 修 
改 ， 或 以 其 他 方式 引用 和 影响 其 他 变量 ， 包 括 可 能 存在 的 同样 名 字 的 
全 局 变量 。 新 建 的 变量 在 程序 的 其 他 部 分 都 不 可 见 ， 包 括 在 那个 糟糠 
的 程序 内 。 这 样 新 的 SAW 的 确 被 置 为 0， 但 永远 不 会 再 使 用 或 者 引用 ， 
所 以 它 完全 是 白费 工夫 (执行 糟糕 的 程序 时 ，Perl 根 据 与 其 无 关 的 全 局 


变量 $ 和 AW 决定 是 否 报警 ) ° 


更 好 的 比喻 : 充分 的 透明 度 

可 以 这 样 理 解 1ocal， 它 对 变量 的 修改 是 用 户 完 全 无 法 察觉 的 〈 好 
像 是 把 新 值 投 影 到 原 变 量 之 上 ) 。 用 户 〈 还 包括 能 看 到 的 任何 人 ， 例 
如 子 程序 和 信号 处 理 程序 ) 会 看 到 这 些 新 的 值 。 在 代码 块 结束 之 前 ， 
local 的 修改 会 取代 之 前 的 值 。 退 出 之 后 ， 这 种 透明 特性 会 目 动 消 除 ， 
也 就 是 取消 local 进 行 的 所 有 修改 。 

相 比 “保存 一 个 内 部 副本 ， 这 个 比喻 更 接近 现实 。 使 用 local 并 不 会 
生成 一 个 副本 ， 而 是 在 访问 变量 时 ， 使 用 新 设置 的 值 ( 即 屏 菩 原 来 的 
值 ) 。 退 出 代码 块 之 后 会 抛弃 新 设置 的 值 。 调 用 local 时 ， 新 值 是 手动 
设置 的 ， 但 我 们 要 讲解 这 些 细节 的 原因 在 于 :正则 表达 式 的 伴随 效应 
变量 (side-effect variables) 会 自动 使 用 动态 作用 域 。 

正则 表达 式 的 伴随 效应 和 动态 作用 域 

正则 表达 式 与 动态 作用 域 有 什么 关系 呢 ? 关系 很 大 。 作 为 伴随 效 
应 ， 许 多 变量 一 一 例如 $& (引用 匹配 的 文本 ) 和 $1 (引用 第 一 组 括号 
内 表达 式 匹 配 的 文本 ) 一 一 会 在 匹配 成 功 时 自动 设置 。 在 下 一 节 会 详 
细 讨 论 这 些 问 题 。 在 其 所 处 的 代码 块 中 ， 这 些 变 量 都 会 目 动 使 用 动态 
作用 域 。 

这 种 设计 的 好 处 在 于 ， 每 次 调用 子 程 序 都 要 启动 新 的 代码 块 ， 也 
束 是 为 这 些 变 量 提供 了 新 的 动态 作用 域 范 围 。 因 为 在 代码 块 之 前 的 值 
会 在 代码 块 执行 完 之 后 恢复 (也 就 是 子 程序 返回 时 ) ， 子 程序 不 能 改 
变调 用 方 能 看 到 的 值 。 

来 看 个 例子 : 

if ( m/(…)/) 
{ 


DoSomeOtherStuff(); 
print "the matched text was $1.\n"; 
} 


因为 $1 的 值 在 进入 代码 块 时 进行 了 动态 作用 域 处 理 ， 这 段 代码 不 
关心 也 不 必 关 心 ， 函 数 DoSomeOtherStuff 是 否 改变 了 $1 的 值 。 此 函数 对 
$1 的 任何 改动 都 只 在 函数 定义 的 代码 块 内 部 ， 或 者 函数 的 子 代码 块 中 
生效 。 所 以 ，DoSomeOtherStuff 不 会 影响 print 接 收 的 $1 的 值 。 

目 动 使 用 动态 作用 域 很 有 用 ， 虽 然 有 时 候 不 那么 明显 : 


if ($result =~ m/ERROR=( .*)/) { 
warn "Hey, tell $Config{perladmin} about $1!\n"; 
} 


标准 库 模 块 Config 定义 了 一 个 关联 数组 (associative array ) 
%Config， 其 成 员 $Config-{perladmin} 保 存 本 地 Perlmaster 的 E-mail 地 
址 。 如 果 $1 没 有 使 用 动态 作用 域 ， 这 上段 代码 就 很 难 理解 ， 因 为 %Confg 
是 一 个 绑 定 变量 (tied variable) 。 也 就 是 说 ， 对 它 的 任何 引用 都 意味 
着 幕后 的 子 程序 调用 ， 用 $Config{...} 进 行 正 则 表达 式 匹 配 时 ，Config 
中 的 子 程序 返回 对 应 的 值 。 这 次 匹配 发 生 在 上 一 行 的 匹配 和 对 $1 的 使 
用 中 间 ， 所 以 如 果 $1 没 有 使 用 动态 作用 域 ， 它 的 值 会 被 修改 。 所 以 ， 
$Config{...} 中 对 $1 的 任何 修改 都 被 动态 作用 域 安全 地 保护 了 起 来 。 

动态 作用 域 还 是 词法 作用 域 

如 果 使 用 恰当 ， 动 态 作 用 域 能 提供 许多 便利 ， 但 是 滥用 动态 作用 
域 会 带 来 无 休止 的 事 梦 ， 因 为 阅读 程序 的 人 很 难 理解 ， 分 散在 散落 的 
local、 子 程序 和 本 地 变量 引用 之 间 的 复杂 交互 。 

我 兽 说 ，my (...) 声明 会 在 词法 范围 (lexical scope) 内 创造 一 个 
私有 变量 。 与 私有 变量 的 词法 范围 对 应 的 是 全 局 变量 的 范围 ， 但 是 词 
法 范围 与 动态 作用 域 没 有 关系 〈《 仅 有 的 联系 是 : 不 能 对 my 变量 调用 
local) 。 请 记 住 ，local 只 是 行为 (action) ， 而 my 既是 行为 ， 又 是 声 
明 ， 这 很 重要 。 


匹配 修改 的 特殊 变量 


Special Variables Modified by a Match 
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态 作用 域 。 如 果 匹 配 不 成 功 ， 这 些 值 永远 也 不 会 改变 。 在 需要 的 时 
候 ， 它 们 会 设置 为 空 字符 串 〈 不 包括 任何 字符 的 字符 串 ) 或 者 undefind 

(“未 定义 ”， 一 个 “没有 值 ”* 的 值 ， 与 空 字符 串 类 似 ， 但 测试 时 两 者 不 相 

T) 。 表 7-5 给 出 了 若干 例子 。 

详细 地 说 ， 匹 配 完 成 之 后 会 设置 这 些 变 量 : 

$& 正 则 表达 式 所 匹配 文本 的 副本 。 从 效率 方面 考虑 (参见 第 356 页 
的 讨论 ) ， 最 好 不 要 使 用 这 个 变量 〈 还 包括 下 面 介绍 的 $ 和 $) 。 一 旦 


匹配 成 功 ，$& 束 不 会 是 未 定义 状态 ， 尽 管 它 可 能 是 空 字 符 串 。 
表 7-5: 匹配 后 特殊 变量 的 说 明 


如 下 匹配 完成 之 后 
12 23 4 4 31 
"Pi is 3.14159, roughly" =~ m/\b((tasty| fattening) | (\d+(\.\d*)?))\b/; 
设置 了 下 面 的 特殊 变量 
变量 {fi 
$ 匹配 文本 之 前 的 文本 pi'is， 
$& 匹配 文本 3.14159 
$! 匹配 文本 之 后 的 文本 , ‘roughly 
$1 第 1 组 括号 匹配 的 文本 3.14159 
$2 第 2 组 括号 匹配 的 文本 undef 
$3 第 3 组 括号 匹配 的 文本 3.14159 
$4 第 4 组 括号 匹配 的 文本 ,14159 
$+ 编号 最 大 的 括号 匹配 的 文本 .14159 
SAN 最 后 结束 的 括号 匹配 的 文本 3.14159 
8- 目标 文本 中 各 匹配 开始 位 置 的 偏 移 值 数组 | (6, 6, undef, 6, 7) 
8+ 目标 文本 中 各 匹配 结束 位 置 的 仿 移 值 数 组 | (13, 13, undef, 13, 13) 


S 在 目标 文本 中 匹配 开始 之 前 (左边 ) 文本 的 副本 。 如 果 使 用 /g 
修饰 符 ， 你 可 以 期 望 $ 

的 起 点 是 开始 尝试 位 置 的 文本 ， 但 它 每 次 都 是 从 整个 字符 串 的 开 
位置 开始 的 。 如 果 匹 

配 成 功 ，$* 肯 定 不 会 是 未 定义 状态 。 

$' 保存 目标 文本 中 匹配 成 功 文本 之 后 (右边 ) 的 文本 的 副本 。 如 
果 匹 配 成 功 ，$' 肯 定 不 会 是 未 定义 状态 。 匹 配 成 功 之 后 ， 字 符 串 
"S se $" 就 是 目标 字符 串 的 副本 ( 注 5) 。 

$1» $2 >$3>... 

对 应 第 1、2、3 组 捕获 型 括号 匹配 的 文本 (请 注意 ， 这 里 没有 
$0， 因 为 它 是 脚本 的 名 字 ， 与 正则 表达 式 无 关 ) 。 如 果 它 们 对 应 的 括 


在 表达 式 中 不 存在 ， 或 者 没有 实际 参与 匹配 ， 则 设置 为 未 定义 状 


mj 
F 
KX o 
JON 


匹配 之 后 就 可 以 使 用 这 些 变 量 ， 在 $/.../.../ 中 的 replacement 也 可 以 
使 用 。 它 们 还 能 在 动态 正则 结构 或 者 藤 入 代码 中 使 用 (327) 。 在 正 
则 表达 式 中 使 用 这 些 变量 是 没 多 少 意义 的 (因为 已 经 有 了 TU, 之 
K) 。 请 参考 第 303 页 的 “在 正则 表达 式 中 使 用 $1”。 

T (wt) | 和， Aw) +, 的 区 别 可 以 用 来 说 明 $1 的 设置 方式 。 两 
个 表达 式 都 能 匹配 同样 的 文 注 5: 事实 上 ， 即 使 目标 字符 串 是 未 定义 
的 ， 但 能 匹配 成 功 《虽然 不 太 现 实 ， 但 有 可 能 ) | "SSe $m 是 一 个 空 
字符 串 ， 而 不 是 未 定义 。 只 有 在 这 种 情况 下 ， 两 者 才 不 一 样 。 

本 ,但 是 它们 的 区 别 在 于 括号 内 的 子 表达 式 匹 配 的 内 容 。 用 这 个 
表达 式 匹 配 字 符 串 ‘tubby’， 第 一 个 表达 式 的 $1 的 内 容 是 ‘tubby”， 而 第 
二 个 表达 式 中 的 $1 只 包含 y?: 在 ' Ow) +, 中 ， 加 号 在 括号 外 面 ， 所 
以 每 次 从 代 都 会 重新 捕获 ，$1 保 留 最 后 的 字符 。 

还 需要 注意 的 是 ' (x) ? A! (x? ) | 的 差别 。 前 一 个 表达 式 
中 括号 及 其 捕获 内 容 不 是 必然 出 现 的 ， 所 以 $1 可 能 是 ‘x?， 或 者 是 未 害 
X, ML" (x? ) ， 中 括号 在 匹配 的 外 面 一 一 匹配 的 内 容 不 是 必然 出 现 
的 ， 但 匹配 必须 发 生 。 如 果 整 个 表达 式 匹 配 成 功 ， 这 部 分 的 匹配 必然 
会 发 生 ， 尽 管 'x? , 匹配 的 是 空 字符 串 。 所 以 在 ' (x?) | 中 ，9$1 可 
能 是 'X? 或 者 是 空 字符 串 。 下 表 给 出 了 一 些 例 子 : 


从 上 表 可 以 看 出 ， 如 果 需 要 添加 括号 来 捕获 文本 ， 如 何 添加 取决 
于 我 们 的 意图 。 在 所 举 的 例子 中 ， 增 加 的 括号 对 整体 匹配 没有 影响 
(整体 匹配 是 不 变 的 ) ， 其 中 唯一 的 区 别 就 是 $1 设置 的 伴随 效应 。 


$+ 表示 $1、$2 等 匹配 过 程 中 明确 设 定 的 ， 编 号 最 大 的 变量 的 副 
本 。 在 下 面 的 情况 中 会 有 用 : 


href \s* = \s* # 匹配 "href = ", REACH... 
FA aal 0 hat ad. # 双 引 号 字符 事 ， 或 者 ... 

L ATATEN. # KIFFA, AK... 

| ([^'"<>]+) ) # 非 引 号 形式 的 值 


}ix; 

如 果 没 有 $+， 我 们 可 能 需要 依次 检查 $1、$2 和 $3， 才 能 找 出 明确 
设置 的 那个 。 

如 果 正 则 表达 式 中 没有 捕获 型 括号 (或 者 在 匹配 中 没有 用 到 ) ， 
则 这 个 值 为 未 定义 。 

SAN 最 后 结束 的 ， 在 匹配 中 明确 设 定 的 括号 匹配 的 文本 的 副本 

(明确 设 定 的 $1 等 变量 中 ， 闭 括号 在 最 后 ) 。 如 果 正 则 表达 式 中 没有 

捕获 型 括号 〈 或 者 匹配 中 没有 用 到 ) ， 则 其 值 为 未 定义 。 第 344 页 开头 
有 个 恰当 的 例子 。 

@- 和 @+ 

表示 各 捕获 型 括号 所 匹配 文本 的 起 始 和 结束 位 置 在 目标 文本 中 侦 
移 值 的 数组 。 使 用 起 来 可 能 有 点 迷惑 ， 因 为 它们 的 名 字 比 较 怪异 。 
个 数组 的 第 一 个 元 素 都 对 应 整体 匹配 。 也 就 是 说 ， 通 过 $-[0] 访 问 到 的 
@- 的 第 一 个 元 素 ， 是 整个 匹配 在 目标 字符 串 中 的 偏 移 值 ， 即 : 


$text = "Version 6 coming soon?"; 


$text =~ m/\dt/; 


$-[0] 的 值 为 8， 代表 匹 配 从 目标 字符 串 的 第 8 个 位 置 开始 (在 Perl 
中 ， 偏 移 值 从 0 开始 ) 。 

@+ 的 第 一 个 元 素 通 过 $+[0] 访 问 ， 表 示 对 应 匹配 文本 结束 位 置 的 偏 
移 值 。 在 上 例 中 其 值 为 9， 表 示 整 体 匹 配 结 束 于 目标 字符 串 的 第 9 个 字 
符 之 前 。 所 以 ， 如 果 $text 没 有 变化 ，substr ($text, $-[0], $+[0]-$- 
[0]) 就 等 于 $&， 但 没有 $& 那 样 的 性 能 缺陷 (356) ， 下 例 给 出 了 @- 
的 简单 用 法 ; 

1 while $line=~s/t/"x (8-$-[0]%8)/e; 


它 会 把 给 定 文本 中 的 制 表 符 (tab) BN SKE KYY 
( 注 6) 。 

两 个 数组 中 接 下 来 的 元 素 分 别 对 应 各 捕获 分 组 的 开始 位 置 和 结 
位 置 的 偏 移 值 。$-[1] 和 $+[1] 对 应 $1，$-[2] 和 $+[2] 对 应 $2， 依 次 类 推 。 

SAR 这 个 变量 保存 最 近 执 行 的 租 入 代码 的 结果 ， 如 果 舱 入 代码 结 
构 作 为 ”(? ifthenlelse) | 条 件 语句 (140) 中 的 证 部 分 ， 则 不 设 定 
$AR。 在 正则 表达 式 内 部 ( 即 在 艇 入 代码 或 者 动态 正则 结构 喇 327 
H) ， 它 会 自动 根据 匹配 的 各 部 分 进行 本 地 化 处 理 ， 所 以 因为 回 漳 
而 “交还 ”的 代码 对 应 的 $AR 的 值 会 被 放弃 。 换 一 种 说 法 就 是 ， 它 保存 引 
擎 到 达 当 前 状态 的 工作 路 径 中 “最 近 ” 的 值 。 

如 果 正 则 表达 式 根据 /g 修 饰 符 重复 使 用 ， 那 么 每 次 循环 都 会 重新 设 
置 这 些 变量 。 也 就 是 说 可 以 在 s/.../.../g 中 使 用 $1， 因 为 每 次 匹配 时 它 的 
值 都 不 一 样 。 

在 正则 表达 式 中 使 用 $1 

Perl 手 册 专 门 提 到 ， 在 正则 表达 式 外 部 ， 不 能 用 IV, 反 向 引用 

(而 应 该 使 用 $1) 。 变 量 $1 对 应 上 次 成 功 匹配 中 的 某 个 固定 字符 串 。 
AL 则 是 正则 表达 式 元 字符 ， 它 对 应 正则 引擎 遇 到 u 时 第 一 组 捕获 
型 括号 捕获 的 文本 。 在 NEFA 的 回溯 过 程 中 ， 它 的 值 可 能 会 变化 。 

与 之 对 应 的 问题 是 ， 正 则 运算 元 中 是 否 能 够 使 用 $1 之 类 的 变量 。 
通常 ， 在 内 骸 代 码 或 者 动态 正则 结构 (7327) 中 可 用 ， 在 其 他 情况 下 
就 没什么 意义 。 出 现在 运算 元 中 “表达 式 部 分 ”的 $1 与 其 他 变量 一 样 处 
理 : 在 匹配 或 替换 操作 开始 时 插值 。 也 就 是 说 ， 对 正则 表达 式 而 言 ， 
$1 与 当前 的 匹配 没什么 关系 ， 它 属于 上 一 次 匹配 。 


qr/.…/ 运 算 符 与 regex 对 象 


The qr/.../Operator and Regex Objects 

在 第 2 章 和 第 6 章 已 经 简要 介绍 过 (76，277) 一 元 运算 符 gr/.../， 
其 运算 元 为 正则 表达 式 ， 返 回 regex 对 象 。 返 回 的 对 象 可 以 被 之 后 的 正 
则 运算 符 用 来 匹配 、 替 换 、 分 割 ， 或 者 可 以 作为 其 他 的 更 长 表达 式 的 
一 部 分 。 

regex 对 象 主要 用 来 把 正则 表达 式 封 装 为 一 个 单元 ， 构 建 大 的 正则 
表达 式 ， 以 及 提高 效率 (在 正则 表达 式 编译 时 提高 控制 能 力 ， 讨 论 见 
ipa); ze 

291 页 已 经 介绍 过 ， 用 户 可 以 使 用 目 己 的 分 隔 符 ， 例 如 gr{...} 或 者 


qr! ...! 。 它 还 文 持 核心 修饰 人 符 i、/x、/s、/m 和 /0o。 
构建 和 使 用 regex 对 象 


Building and Using Regex Objects 
下 面 的 表达 式 来 自 第 2 章 (©76) : 


my $HostnameRegex = qr/[-a-z0-9]+( ? :\.[-a-z0-9] +)*\.(?: com|edu| info) /i; 
my $HttpUrl qr { 
http:// $HostnameRegex \b # Hostname 
(?3 
/ [-a-20-9-:\@62=4, .!/~*"9\$] * # 可 能 出 现 的 path 
(?<![.,2!]) i REHAL., 2!) RA 


第 一 行 代码 把 匹配 主机 名 所 用 的 简单 正则 表达 式 封 装 为 regex 对 
象 ， 保 存 到 变量 $Hostname-Regex 中 。 下 一 行使 用 该 变量 构建 匹配 
HTTP URL 的 regex 对 象 ， 保 存 到 $HttpUrl 中 。 构 建 完成 之 后 就 可 以 以 多 
种 方式 使 用 ， 例 如 : 


if ($text =~ $HttpUrl) { 
print "There is a URL\n"; 
} 


用 来 检测 ， 或 者 : 
while ($text =~ m/(S$HttpUrl)/g) { 
print "Found URL: $1\n"; 
} 


用 来 搜索 和 显示 所 有 的 HIPP URL 。 
如 果 按 照 第 5 章 的 讲解 (205) 修改 $HostnameRegex: 


my S$HostnameRegex = qr{ 


# 一 个 或 多 个 点 号 分 阿部 分 


(?: [a-z0-9]\. | [a-z0-9] [-a-z0-9]{0,61}[a-z0-9]\. ) * 

# 后 级 

(?: com|edu|gov|int|mil|net|org|biz|info|:::|aero| [a-z] [a-z] ) 
}xi; 


a 


它 的 使 用 方式 与 之 前 的 例子 相同 (开头 没有 ^， ， 结 尾 没 
'$, ， 也 没有 捕获 型 括号 ) ， 所 以 ， 我 们 的 符 换 不 受 限制 。 这 样 能 得 
到 更 准确 的 $HttpUrl。 

匹配 模式 (即使 不 设置 ) 是 不 可 更 改 的 

qr.../ 文 持 292 页 介绍 的 核心 修 哺 符 。regex 对 象 一 旦 构建 完成 ， 对 
应 的 匹配 模式 就 不 能 更 改 了 ， 即 使 regex 对 象 所 在 的 m/.../ 有 自己 的 修饰 
符 也 是 如 此 。 下 面 的 代码 就 不 正确 : 


my $WordRegex = qr/\b \w+ \b/; # 这 里 忘 了 添加 修饰 符 /xX 


if ($text =~ m/^ (S$WordRegex) /x) { 
print "found word at start of text: $1\n"; 


} 
这 里 希望 用 入 修饰 $wWordRegex 的 匹配 模式 ， 但 是 这 并 不 管用 ， 
为 在 $WordRegex 生 成 时 修饰 符 (即使 不 设置 ) 被 锁定 在 qr/.../ 中 。 所 
以 ， 修 饰 人 符 必 须 在 恰当 的 时 候 使 用 。 
下 面 的 代码 则 没有 问题 : 


my $WordRegex = qr/\b \w+ \b/x; # 没 问题 ! 
if ($text =~ m/*(S$WordRegex)/) { 

print "found word at start of text: $1\n"; 
} 


现在 来 比较 开始 的 代码 和 下 面 的 代码 : 


my SWordRegex = '\b \wt \b'; # Sih FHF 
if ($text =~ m/*($WordRegex)/x) { 
print "found word at start of text: $1\n"; 


} 


这 段 代 码 没 问题 ， 尽 管 $WordRegex 生 成 时 没有 任何 修饰 符 。 因 为 
$WordRegex 是 普通 变量 ， 保 存 普通 的 字符 串 ， 用 作 my.../ 的 插值 。 因 为 
各 方面 的 原因 ， 用 字符 串 构 建 正 则 表达 式 比 regex 对 象 要 厅 烦 得 多 ， 比 
如 在 这 个 例子 中 ， 必 须 记 住 $WordRegex 必 须 和 /x 一 起 使 用 才 行 。 

我 们 也 可 以 只 使 用 字符 串 解 决 这 个 问题 ， 只 需要 在 表达 式 中 设 定 
模式 修饰 范围 (6135) : 


my $WordRegex = '(?x:\b \w+ \b)'; # 普通 字符 串 


if ($text =~ m/^ ($WordRegex)/) { 
print "found word at start of text: $1\n"; 
} 


此 时 ，my/.../ 的 正则 文字 插值 之 后 ， 正 则 引擎 接收 到  (? x: 
\b\wt\b) ) | ， 这 就 是 我 们 期 望 的 结 

其 实 这 就 是 生成 regex 对 象 的 逻辑 过 程 ， 只 是 regex 对 象 对 于 每 个 模 
式 修 饰 符 ， 痢 明确 定义 了 “om” 或 “off* 的 状态 。 用 grAb"\w+"\b/x 生 成 
| (2 x-ism: \b\wt\b) | 。 请 注意 模式 修饰 符 的 设 定 ' (? x 
ism: ...) | ， 这 里 启用 了 /x， 禁 止 了 i、/s 和 /m。 也 就 是 说 ， 无 论 是 否 
指定 qr/.../ 的 修饰 符 ，regex 对 象 总 是 “锁定 ”在 某 个 模式 下 。 


探究 regex 对 象 


Viewing Regex Objects 
前 面 讨 论 了 regex 对 象 综合 正则 表达 式 和 模式 修饰 符 一 一 例如 
(? x-ism: ...) | 一 一 的 逻辑 过 程 。 如 果 在 Pen 期 望 接收 字符 串 的 地 


方 使 用 regex 对 象 ，Perl 会 把 它 转换 为 对 应 的 文本 表示 方式 ， 例 如 : 


% perl -e 'print qr/\b Nw+ \b/x, "\n"' 
(?x-ism:\b \w+ \b) 


Wize 8 304 A SHttpUrl Fee 
(?ix-sm: 

http:// (?ix-sm: 

# 一 个 或 多 个 点 号 分 陪 部 分 

(2: [a-z0-9]\. | [a-z0-9] [-a-z0-9] {0,61} [a-z0-9]\. ) * 

# 后 级 

(?: comledulgovlint|millnetlorglbiz|infol'**|aero| [a-z] [a-z] ) 
) \b # hostname 

{es 

/ [-a-z0-9-:\@&?=+, .!/~*'%\S]* # 可 能 出 现 的 path 
(2?<![.,2!)) # 不 能 以 [.,?!] 结 尾 
)? 


把 regex 对 象 转换 为 字符 串 的 功能 在 调试 时 很 有 用 。 
用 regex 对 象 提 高 效率 


Using Regex Objects for Efficiency 

使 用 regex 对 象 的 主要 原因 之 一 是 便于 控制 。 为 了 提高 效率 ，Perl 会 
把 正则 表达 式 编译 为 内 部 形式 。 第 6 章 简 要 介绍 了 正则 表达 式 编译 的 一 
般 知 识 ， 但 是 更 复杂 的 Perl 相 关 问 题 ， 包 括 regex 对 象 之 类 ， 都 在 “正则 
表达 式 编译 、/o 修饰 符 、gqr/.../ 和 效率 ”( 上 348) 中 详细 讨论 。 


Match 运 算 符 


The Match Operator 

基本 的 匹配 操作 : 

$text=~m/regex/ 

是 Perl 的 正则 表达 式 应 用 的 核心 。 在 Perl 中 ， 正 则 表达 式 匹 配 操 作 
需要 两 个 运算 元 ， 其 一 是 目标 字符 串 ， 其 二 是 正则 表达 式 ， 返 回 一 个 
值 。 

匹配 如 何 进行 ， 返 回 什么 值 ， 取 决 于 匹配 的 应 用 场合 (294) 及 
其 他 因素 。match 运算 符 非 党 方便 一 一 它 可 以 用 来 测试 某 个 正则 表达 式 
能 否 匹配 一 个 字符 串 ， 或 者 从 字符 串 中 提取 数据 ， 甚 至 是 与 其 他 匹配 
运算 符 一 起 将 字符 串 拆 分 为 各 个 部 分 。 虽 然 功 能 强大 ， 这 种 便捷 也 增 
加 了 掌握 的 难度 。 需 要 关注 的 内 容 包括 : 

e 如 何 指定 正则 运算 元 。 

e 如 何 指定 匹配 修 吧 待 ， 以 及 它们 的 意义 。 

e 如 何 指定 目标 字符 串 。 


e 匹 配 的 伴随 效应 。 

e 匹 配 的 返回 值 。 

e 能 影响 匹配 的 外 部 因素 。 
匹配 的 常见 形式 十 : 


StringOperand=~RegexOperand 
还 有 许多 简便 方式 ， 值 得 注意 的 是 ， 某 些 简便 形式 下 ， 两 个 运算 
元 都 不 是 必须 出 现 的 。 本 市 中 我 们 会 看 到 各 种 形式 的 例子 。 


Match 的 正则 运算 元 


Match's Regex Operand 

正则 运算 元 可 以 是 正则 文字 或 者 regex 对 象 (其 实 可 以 是 字符 串 或 
者 任意 的 表达 式 ， 但 是 这 样 做 没什么 好 处 ) 。 如 果 使 用 正则 文字 ， 可 
DIFESI ° 


使 用 正则 文字 

正则 运算 元 通常 是 m/.../ 或 者 就 是 /.../ 内 的 正则 文字 。 如 果 正 则 文 
字 的 分 隔 符 是 斜 线 或 问号 (以 问号 做 分 隔 符 的 情况 很 特殊 ， 稍 后 讨 
论 ) 则 可 以 省 略 开头 的 m。 为 保持 一 致 ， 我 不 管 是 否 必 要 都 使 用 nm。 之 
前 介绍 过 ， 如 果 使 用 m， 你 可 以 使 用 自己 的 分 隔 符 (291) 。 

使 用 正则 文字 时 ， 可 以 结合 第 292 页 介绍 的 任何 核心 修饰 符 。 匹 
配 运算 符 还 支持 两 个 另外 的 运算 符 ，/c 和 /g， 下 面 马上 介绍 。 

使 用 regex 对 象 

正则 运算 元 也 可 以 是 qv.../ 生 成 的 regex 对 象 ， 例 如 : 


my $regex = gqr/regex/; 


if (Stext =~ $regex) { 


可 以 在 m/.../ 中 使 用 regex 对 象 。 特 殊 的 情况 是 ， 如 果 “ 正 则 文字 ”中 
只 包含 一 个 regex 对 象 的 插值 ， 那 么 它 就 完全 等 同 于 使 用 此 regex 对 和 象 。 
上 面 这 个 例子 也 可 以 写作 : 


if ($text =~ m/Sregex/) { 


这 很 方便 ， 因 为 它 看 起 来 更 熟悉 ， 也 容许 我 们 对 regex 对 象 使 用 /g 
修饰 符 〈 还 可 以 使 用 m/.../ 文 持 的 其 他 的 修饰 符 ， 但 这 在 本 例 中 没有 意 
义 ， 因 为 它们 不 能 有 覆盖 regex 对 象 内 锁定 的 模式 修饰 符 呈 304) ° 

默认 的 正则 表达 式 

如 果 没 有 指定 正则 表达 式 ， 例 如 m// (或 者 m/$SomeVar/ 而 变量 
$SomeVar 为 空 字符 串 或 未 定义 ) ， 则 Perl 会 使 用 此 代码 所 在 的 动态 作用 
域 范围 内 最 近 应 用 成 功 的 正则 表达 式 。 以 前 这 样 很 有 用 ， 因 为 可 以 提 
高 效率 ， 后 来 因为 regex 对 象 的 发 展 (303) ， 已 经 没什么 意义 了 。 

? ...? 的 特殊 匹配 

除了 之 前 介绍 的 正则 文字 的 各 种 分 隔 符 ，match 运 算 符 还 可 以 使 用 
一 种 特殊 的 分 隅 和 从 问号 。 问 号 分 隔 符 (例如 m? ...? ) 提供 的 是 
AERD, m? ...° 匹配 成 功 之 后 ， 除 非 在 同样 的 package 中 调 
用 reset 函 数 ， 否 则 不 会 再 次 匹配 。 按 照 Perl Version 1 的 手册 上 的 说 法 ， 


这 “是 有 用 的 优化 措施 ， 用 于 在 一 组 文件 中 查找 某 段 信息 的 第 一 次 出 
现 "， 但 是 不 知 何故 ， 我 在 现代 Perl 中 从 未 见 过 。 

问号 分 隔 符 的 特殊 情况 类 似 斜 线 分 隔 符 ， 也 不 是 必须 出 现 
的 : ? ...? 完全 等 价 于 m? ...? 。 


指定 目标 运算 元 


Specifying the Match Target Operand 

种 用 来 指定 “搜索 字符 串 ” 的 做 法 是 = 一 ， 例 如 $text= 一 m/.…/。 请 记 
住 ，= 一 既 不 是 赋值 运算 符 ， 也 不 是 比较 运算 符 ， 只 是 一 个 看 来 有 趣 的 
运算 符 ， 用 来 连接 运算 元 (这 个 表示 法 改编 自 awk) ° 

因为 整个 “expr=~m/.../ 本 吴 驶 是 一 个 表达 式 ， 我 们 可 以 在 任何 容 
许 出 现 表 达 式 的 地 方 使 用 ， 例 如 〈 以 连 线 分 隔 ) : 
$text =~ m/*…/; # 这 样 做 ， 大概 是 从 伴随 效应 考虑 的 


if ($text =~ m/*…/) { 
# 如 果 匹 配 成 功 ， 执 行 这 些 代 码 


$result = ( $text =~ m/*/ ); # 把 Sresult 置 为 $text 的 匹配 结果 
Sresult = Stext =~ m/-/ ; # 同上 =~ 的 优先 级 高 于 = 
Scopy = $text; # 把 Stext HM #l$copy... 
Ws i t... 在 Scopy 上 匹配 
( $copy = $text ) =~ m/*/; # 同上 
默认 的 目标 字符 串 


如 有 果 目 标 字 符 串 是 变量 $_， 则 可 以 省 略 整 个 “<$ =~”。 也 束 是 说 ， 
默认 的 目标 字符 串 就 是 $_。 

$text=~m/regex/; 

的 意思 是 , “把 regex 应 用 到 $text 中 的 文本 ， 忽 略 返回 值 ， 获 取 伴随 
效应 *”。 如果 起 了 写 ‘~?”， 结 果 束 是 : 


$text=m/regex/; 


它 的 意思 是 “对 $_ 中 的 文本 应 用 正则 表达 式 ， 获 取 伴 随 效 应 ， 把 返 
回 的 true/false 值 赋 给 $text”。 也 就 是 说 ， 下 面 两 者 是 等 价 的 : 


$text = m/regex/; 
$text = ($ =~ m/regex/); 


有 时 候 使 用 默认 目标 字符 串 很 方便 ， 尤 其 是 与 其 他 稚 认 情况 的 结 
构 (许多 结构 都 有 默认 值 ) 结合 时 。 下 面 的 代码 就 很 常见 


while (<>) 


总 的 来 说 ， 依 赖 默 认 运 算 元 会 增加 无 经 验 程序 员 了 阅读 代码 的 难 
JE o 

颠倒 match 的 意义 

可 以 用 ! ~ 来 取代 = 一 ， 对 返回 值 进行 逻辑 非 操 作 〈 马 上 会 介绍 这 
么 做 的 返回 值 和 伴随 效应 ， 但 是 对 于 ! 一 ， 返 回 值 就 是 true 或 者 
false) ， 下 面 三 种 办 法 是 等 价 的 ; 


if ($text !~ m/:::/) 
if (not $text =~ m/:::/) 
unless ($text =~ m/:::/) 


从 我 个 人 出 发 ， 我 喜欢 中 间 的 办 法 。 无 论 选 用 哪 种 办 法 ， 都 会 产 
生 设 置 $1 等 的 伴随 效应 。! 一 只 是 判断 “如 采 不 能 匹配 ?的 简便 方式 。 


Match 运 算 符 的 不 同 用 途 


Different Uses of the Match Operator 

可 以 从 match 运 算 符 返回 的 true/false 判 断 匹 配 是 否 成 功 ， 也 可 以 从 
成 功 匹配 中 获取 其 他 的 信息 ， 与 其 他 match 运 算 符 结合 起 来 。match 运 
算 符 的 行为 主要 取决 于 它 的 应 用 场合 〈E294) ， 以 及 是 否 使 用 了 /g 修 
IMIT ° 

普通 的 “匹配 与 否 ” 


scalar context， 不 使 用 /g 


Æ scalar context P 〈 例 如 让 测试 ) ，match 运 算 符 返回 的 就 是 
true/false: 


if ($target =~ m/::/) { 

# ... 匹配 成 功 后 的 操作 ... 
} else { 

# ... 匹配 失败 后 的 操作 ... 


} 
也 可 以 把 结果 赋值 给 一 个 scalar 变 量 ， 然 后 检查 
my $success = $target =~ m/:::/; 


if (Ssuccess) { 


普通 的 “从 字符 串 中 提取 数据 ” list context， 不 使 用 /g 
不 使 用 /g 的 list context， 是 字符 串 中 提取 数据 的 常用 人 做法。 返回 值 
是 一 个 list， 每 个 元 素 是 正则 表达 式 中 捕获 型 括号 内 的 表达 式 捕 获 的 内 
容 。 下 面 这 个 简单 的 例子 用 来 从 69/8/31 中 提取 日 期 : 
my ($year, $month, $day) =$date=~m{^ (\d+) / (\d+) / 
(\d+) $}x; 匹配 的 3 个 数 作为 3 个 变量 (当然 还 包括 $1、$2 和 $3 
等 ) 。 每 一 组 捕获 型 括号 都 对 应 到 返回 序列 中 的 一 个 元 素 ， 空 序列 表 
示 匹 配 失败 。 
有 时 候 ， 某 组 捕获 括号 没有 参与 最 终 的 成 功 匹 配 。 例 如 ，m/ 
(this) | (that) /必然 有 一 组 括号 不 会 参与 匹配 。 这 样 的 括号 返回 未 定 
义 的 值 undef。 如 果 匹 配 成 功 ， 又 没有 使 用 捕获 型 括号 ， 在 不 使 用 /g 的 
list context 中 ， 会 返回 list (1) ° 
List context 可 以 以 各 种 方式 指定 ， 包 括 把 结果 赋值 给 一 个 数组 ， 例 
如 : 
my @parts=$text=~m//(\d+)-(\d+)-(\d+)$/; 
如 果 match 的 接收 参数 是 scalar 变 量 ， 请 将 匹配 的 应 用 场合 指定 为 
list context， 这 样 才 能 获得 匹配 的 某 些 捕获 内 容 ， 而 不 是 表示 匹配 成 功 
与 否 的 Boolean 值 。 比 较 这 两 个 测试 : 


my (Sword) = $text =~ m/(\wt)/; 
my Ssuccess = $text =~ m/(\wt)/; 
第 一 个 例子 中 ， 变 量 外 的 括号 导致 my 函数 为 赋值 指定 list context ° 
第 二 个 例子 没有 括号 ， 所 以 应 用 场合 为 scalar context，$success 只 得 到 
true/false 值 。 
下 面 给 出 了 一 个 更 简单 的 做 法 : 
if (my ($year, $month, $day) Sdate =~ m{* (\d+) / (\d+) / (\d+) $}x ) { 
# RES CAR, Syear 等 变量 已 经 赋值 
} else | 
# PAREEK... 


这 次 匹配 发 生 在 list context 中 (由 “my (...) =” 提 供 ) ， 所 以 序列 
中 的 变量 会 根据 对 应 的 $1、$2 之 类 进行 赋值 。 不 过 ， 匹 配 完 成 之 后 ， 
因为 整个 组 合 是 在 这 条 件 语句 的 scalar context 中 ，Perl 把 list 转 换 为 一 个 
scalar 变 量 。 它 接收 的 是 list 的 长 度 ， 如 果 匹 配 不 成 功 ， 长 度 为 0， 如 果 
不 为 0， 则 表示 匹配 成 功 。 

“提取 所 有 人 匹配 ”一 一 list context， 使 用 /g 

此 结构 的 用 处 在 于 ， 它 返回 一 个 文本 序列 ， 每 个 元 素 对 应 捕获 型 
括号 匹配 的 文本 (如 果 没 有 捕获 型 括号 ， 就 返回 整个 表达 式 匹 配 的 文 
K) ， 但 上 一 节 的 例子 只 能 针对 一 次 匹配 ， 而 这 种 结构 针对 所 有 匹 
配 。 

下 面 这 个 简单 的 例子 用 来 提取 字符 串 中 的 所 有 整数 : 

my@nums=$text=~m/\d+/g; 

如 果 $text 4 IP Hh HE ‘64.156.215.240°, @num 会 接收 4 个 元 
素 ，“64'、'156'、“'215”、“240'。 与 其 他 结构 相 结合 ， 束 能 很 方便 地 把 
IP 地 址 转换 为 8 位 16 进 制 数字 ， 例 如 ‘409cd7f0;， 如 果 需 要 创建 紧凑 
的 log 文 件 ， 这 很 方便 : 

my $hex_ip=join",map {sprintf( " %02x " ,$_)} $ip=~m/\d+/g; 

下 面 的 代码 可 以 把 它 转换 回来 : 

my $ip=join'.',map {hex($_)} $hex_ip=~m/../g 

男 一 个 例子 是 匹配 一 行 中 的 所 有 浮 点 数 : 


my@nums=$text=~m/\d+(?:\.\d+)?|\.\d+/g; 

一 定 要 使 用 非 捕 获 型 括号 ， 因 为 捕获 型 括号 会 改变 返回 的 结 
下 面 的 例子 说 明了 捕获 型 括号 的 价值 : 

my@Tags=$Html=~m/< (\w+)/g; 

@Tags 会 保存 $Html 中 依次 出 现 的 各 个 tag， 这 里 假设 每 一 个 ‘< ?都 
有 对 应 的 *>”。 

下 面 的 例子 使 用 了 多 个 捕获 型 括号 : 把 Unix 中 邮箱 联系 人 的 alias 文 
件 的 内 容 存 放 在 一 个 字符 串 中 ， 数 据 格 式 是 : 


alias Jeff jfriedl@regex.info 
alias Perlbug perl5-porters@perl.org 
alias Prez president@whitehouse.gov 


为 了 提取 每 一 行 中 的 昵称 (alias) 和 完整 地 址 ， 我 们 可 以 使 用 
m/Aalias\s+ (\S+) \s+ (+) /m (不 使 用 /g) 。 在 list context 中 ， 返 回 的 
序列 包括 两 个 元 素 ， 例 如 (Jeff', 'jfriedl@regex.info') 。 现 在 用 /g 匹 配 
所 有 这 样 的 组 合 ， 得 到 的 序列 是 : 

( 'Jeff', 'jfriedl@regex.info', 'Perlbug', 
"perl5-porters@perl.org', 'Prez', 'president@whitehouse.gov' ) 

如 果 这 个 序列 恰好 符合 key/value 的 形式 ， 我 们 可 以 直接 把 它 存 入 
一 个 关联 数组 (associative array) 

my%alias=$text=~m/alias\s+(\S+)\s+(.+)/mg; 


返回 之 后 ， 可 以 用 $alias{Jeff} 访 问 Jeff 的 完整 地 址 。 
迭代 匹配 : Scalar Context， 使 用 /g 


Iterative Matching:Scalar Context,with/g 


scalar context 中 ，m/.../g 是 个 特殊 的 结构 。 和 正常 的 m/.../ 一 样 ， 它 
只 进行 一 次 匹配 ， 但 是 和 1list context 中 的 m/.../g 一 样 ， 它 会 检查 之 前 匹 
配 的 发 生 位 置 。 每 次 在 scalar context 中 使 用 my.../g 一 一 例如 在 循环 中 ， 
它 会 寻找 “下 一 个 ”匹配 。 如 果 失 败 ， 就 会 重 置 “ 当 前 位 置 (current 
position) ”， 于 是 下 一 次 应 用 从 字符 串 的 开头 开始 。 

这 里 有 个 简单 的 例子 : 


$text = "WOW! This is a SILLY test."; 

$text =~ m/\b([a -z]+\b)/g; 

print "The first all-lowercase word: $1\n"; 
$text =~ m/\b([A-Z2]+\b) /g; 

print "The subsequent all-uppercase word: $1\n"; 


有 两 次 匹配 是 在 scalar context 中 使 用 /g 进 行 的 ， 结 果 为 : 


The first all-lowercase word: is 
The subsequent all-uppercase word: SILLY 


后 两 次 匹配 配合 起 来 ， 前 者 把 <* 当 前 位 置 ?设置 到 匹配 的 小 写字 母 
单词 之 后 ， 第 二 个 读 取 这 个 位 置 ， 在 后 面 寻找 大 写字 母 单 词 。 对 两 个 
匹配 来 说 ，/g 都 是 必须 的 ， 这 样 匹 配 才能 注意 到 “当前 位 置 >， 所 以 如 果 
任何 一 个 没有 使 用 /g， 第 二 行 会 指向 "WOW”。 

scalar context 中 的 /g 匹 配 非常 适合 用 作 while 循 环 的 条 件 : 


while ($ConfigData =~ m/^(\w+)=(.*)/mg) { 
my ($key, $value) = ($1, $2); 


最 终 会 找到 所 有 的 匹配 ， 但 是 while IEA tE 匹配 之 间 (或 者 
说 ， 在 每 次 匹配 之 后 ) 执行 。 一 旦 某 次 匹配 失败 ， 结 果 就 是 false， 然 
后 while 循 环 结束 。 同 样 ， 一 旦 失败 ，/g 状 态 会 重 置 ， 也 就 是 循环 结 
之 后 的 /g 匹 配 会 从 字符 串 的 开头 开始 。 

比较 : 

while ($text =~ m/(\d+)/) { # 很 危险 ! 
print “found: $i\n"; 
} 
和 
while ($text =~ m/(\d+)/g) { 
prin’. "found: 51 \n"; 
} 

唯一 的 区 别 是 /g， 但 是 ee 如 果 $text 包 含 之 前 那个 IP 

地 址 ， 第 二 个 程序 输出 我 们 期 望 的 结 


found: 64 

found: 156 
found: 215 
found: 240 


相反 ， 第 一 个 程序 不 断 地 打印 “found: 64”， 不 会 终止 。 不 使 
用 /g， 就 意味 着 “找到 $text 中 第 一 个 ' (d+) ,”， 也 就 是 "64:， 无 论 匹 
配 多 少 次 都 是 如 此 。 添 加 /g 之 后 ， 它 变 成 了 “找到 $text 中 的 下 一 个 
| (d+) ,”， 依 次 找到 各 个 数字 。 

“当前 匹配 位 置 " 和 pos () KA 

Perl 中 每 个 字符 串 都 有 对 应 的 “当前 匹配 位 置 (current match 
position) ”， 传 动 装置 会 从 这 里 开始 第 一 次 匹配 的 党 试 。 这 是 字符 串 的 
属性 之 一 ， 而 与 正则 表达 式 无 关 。 在 字符 串 创建 或 者 修改 时 ,“ 当 前 匹 
配 位 置 " 会 指向 字符 串 的 开头 ， 但 是 如 果 /g 匹 配 成 功 ， 它 就 会 指向 本 次 
匹配 的 结束 位 置 。 下 一 次 对 字符 捉 应 用 /gg 匹配 时 ， 匹 配 会 从 同样 的 “ 当 
前 匹配 位 置 * 开 始 。 可 以 通过 pos (...) KAE H DER BA Aie 
配 位 置 "， 例 如 : 


my Sip = "64.156.215.240"; 
while ($ip =~ m/(\d+)/g) { 

printf "found '$1' ending at location %d\n", pos ($ip); 
} 

结果 是 


found '64' ending at location 2 

found '156' ending at location 6 
found '215' ending at location 10 
found '240' ending at location 14 


( 记 住 ， 字 符 串 的 下 标 是 从 0 开始 的 ， 所 以 "location 2” 就 是 第 3 个 字 
符 之 前 的 位 置 ) 。 在 /g 匹 配 成 功 之 后 ，$+[0] (@+ 的 第 一 个 元 素 呈 
302) 就 等 于 目标 字符 串 中 的 pos。 

pos () 函数 的 默认 参数 是 match 运 算 符 的 默认 参数 ， 变 量 $_。 

预 设 定 字符 串 的 pos 

pos () 的 真正 能 力 在 于 ， 我 们 可 以 通过 它 来 指定 正则 引 敬 从 什么 
位 置 开始 匹配 (当然 是 针对 /g 的 下 一 次 匹配 ) 。 我 在 Yahoo! 的 时 候 ， 


要 处 理 的 web 服务 夯 log 文 件 的 格式 征 ， 包 含 32 字 下 的 定 长 数据 ， 然 后 
是 请 求 的 页 面 ， 然 后 是 其 他 信息 。 提 取 请 求 页 面 的 办 法 是 ^.{32} | , 
跳 过 开头 的 定 长 数据 : 


if (S$logline =~ m/*.{32}(\S+)/) { 
SRequestedPage = $1; 


} 
这 种 硬 办 法 不 够 美观 ， 而 且 要 强迫 正则 引 警 处 理 前 32 个 字 节 。 如 
果 我 们 亲自 动手 ， 代 码 会 好 看 得 多 ， 效 率 也 高 得 多 : 
pos ($logline) = 32; + 请 求 页 的 信息 从 第 33 个 字符 开始 ... 


if ($logline =~ m/(\S+)/g) { 
SRequestedPage = $1; 


} 

这 个 程序 好 些 ， 但 还 不 够 好 。 这 个 正则 表达 式 从 我 们 规定 的 位 置 
开始 ， 而 在 此 之 前 不 需要 匹配 ， 这 一 点 与 上 个 程序 不 同 。 如 果 因 为 某 
些 原 因 ， 第 32 个 字符 不 能 由 Ns 匹配 ， 前 面 那个 程序 就 会 匹配 失败 ， 
但 是 新 程序 因为 没有 销 定 到 字符 串 的 特殊 位 置 ， 会 由 传动 装置 启动 驱 
动 过 程 。 也 就 是 说 ， 它 会 错误 地 返回 一 个 \S+ | 在 字符 串 后 面部 分 的 
匹配 。 科 好， 在 下 一 下 我 们 会 看 到 ， 这 个 问题 很 容易 修复 。 

使 用 \G 

元 字符 \G 的 意思 是 “锁定 到 上 一 次 匹配 结束 位 置 *。 这 正 是 上 一 节 
中 我 们 希望 解决 的 问题 。 
pos ($logline) = 32; # 设 定 “ 当 前 位 置 ” 从 第 32 个 字符 开始 , 所 以 从 此 处 开始 匹配 ., ， 
if ($logline =~ m/\G(\S+) /9g) 
| 


ŞRequestedPage = 


} 

\G 告 诉 传动 装置 , “不 要 启动 驱动 过 程 ， 如 果 在 此 处 匹配 不 能 成 
功 ， 就 报告 失败 ”。 

前 面 几 章 曾经 介绍 过 \G， : 第 3 章 有 简单 介绍 (130) ， 更 复杂 
的 例子 在 第 5 章 (F212) 。 

请 注意 ， 在 Perl 中 ， 只 有 NG 出 现在 正则 表达 式 开头 ， 而 且 没有 
全 局 性 多 选 结构 的 情况 下 ， 结 果 才 是 可 预测 的 。 第 6 章 的 优化 CSV 解 


析 程 序 的 例子 中 (271) ， 正 则 表达 式 以 NG (? : A, ) ...| PA e 
如 果 更 严格 的 _^, 能 够 匹配 ， 就 没 必要 检查 NG, ， 所 以 你 可 能 会 把 它 
改 为 ”(? : ANG, ) wy “。 不 幸 的 是 ， 在 Perl 中 这 样 行 不 通 ; 其 结果 不 
可 预测 〈 注 7) 。 

使 用 /gc 进行 “Tag-team” 匹 配 

正常 情况 下 ，my/.../g 匹 配 失 败 会 把 目标 字符 串 的 pos 重 置 到 字符 串 
的 开头 ， 但 给 /g 添 加 /c 之 后 会 造成 一 种 特殊 的 效果 : 匹配 失败 不 会 重 置 
目标 字符 串 的 pos _(Wc 离 不 开 /g， 所 以 我 一 般 使 用 /gc) 。 

m/.../gc 最 常见 的 用 法 是 与 \G | 一 起 ， 创 建 “词法 分 析 器 x， 把 字符 
串 解析 为 各 个 记号 (token) 。 下 例 简 要 说 明了 如 何 解 析 $html 中 的 
HTML 代 码 : 


while (not $html =~ m/\G\z/gc) # 在 全 部 检查 完 之 前 ., ， 

| 
if ($html m/\G( <[*>]#> )/xgc){ print he: $1\n" 
elsif ($html =~ m/\G( &\wt; )/xgc) { print "NAMED ENTITY: $1\n" } 
elsif ($html =~ m/\G( 6\#\d+; )/xgc){ print "NUMERIC ENTITY: $1\n"} 
elsif ($html =~ m/\G( pe aC ){ print ' "TEX Ts S1\n" } 
elsif ($html =~ m/\G \n yc) { print ILINE \1 
elsif ($html =~ m/\G( . ) / xac) { print "ILLEG CHA n’ 
else 1 


每 个 正则 表达 式 的 粗 体 部 分 匹配 一 种 类 型 的 HTML 结 构 。 从 当前 位 
置 开 始 ， 依 次 检查 每 一 个 正则 表达 式 (使 用 /gc) ,但 是 只 能 在 当前 位 
置 尝试 匹配 (因为 使 用 了 NG) 。 按 照 顺序 依次 检查 各 个 正则 表达 
式 ， 直 到 找到 能 够 匹配 的 结构 为 止 ， 然 后 报告 。 之 后 把 $html 的 posts 
同 下 一 个 记号 的 开始 ， 进 入 下 一 轮 循环 的 搜索 。 

循环 终止 的 条 件 是 mAG\z/gc 能 够 匹配 ， 即 当前 位 置 ( \G | ) 指向 
字符 串 的 末尾 (1) 。 

有 一 点 要 注意 ， 每 轮 循环 必须 有 一 个 匹配 。 否 则 而且 我 们 个 希 
望 退 出 ) 就 会 进入 无 穷 循环 ， 因 为 $html 的 pos 既 不 会 变化 也 不 会 重 
置 。 对 现在 的 程序 来 说 ， 最 终 的 else 分 支 永远 不 会 调用 ， 但 是 如 果 我 们 


希望 修改 这 个 程序 (马上 就 会 这 么 做 ) ， 或 许 会 引入 错误 ， 所 以 else 分 
文 是 有 必要 保留 的 。 对 目前 这 个 程序 来 说 ， 如 果 接 收 预 料 之 外 的 数据 
(PIM <>?) ， 会 在 每 次 遇 到 预料 之 外 的 字符 时 ， 就 发 出 一 条 警报 。 

另 一 点 需要 注意 的 是 各 表达 式 的 检查 顺序 ， 例 如 把 \G (.) | 作为 
最 后 的 检查 。 也 可 以 来 看 下 面 这 个 识别 <script> 代码 的 例子 : 

$html=~m/AG (<script[A > ]* >.%* ?</script > )/xgcsi 

哇 ， 这 里 使 用 了 5 个 修饰 符 ! 为 了 正常 运行 ， 我 们 必须 把 它 放 在 
对 字符 串 进 行 第 一 次 T<[A>]+> | 的 匹配 之 前 。 否 则 <[^>]+> | 会 
匹配 开头 的 < script > 标签 ， 这 个 表达 式 束 没 法 运行 了 。 

第 3 章 还 介绍 了 关于 /gc 的 更 高 级 的 例子 (132) 

Pos 相 关 问 题 总 结 

下 面 是 match 运 算 符 与 目标 字符 串 的 pos 之 间 互 相 作 用 的 总 结 : 


区 本 失败 时 的 pon 设 定 
字符 串 起 始 位 置 (Bb pos) £E» undef ÝE» undef 

/…/9 字符 囊 的 pos (i 匹配 结束 位 置 的 偏 移 值 “| 重 置 为 undef 

/…'/gc 匹配 结束 位 置 的 偏 移 值 “| 不 变 


同样 ， 只 要 修改 了 字符 串 ，pos 束 会 重 置 为 undef (也 就 是 初始 值 ， 
指向 字符 串 的 起 始 位 置 ) 。 


Match 运 算 符 与 环境 的 关系 


The Match Operator's Environmental Relations 

下 面 几 节 将 总 结 我 们 已 经 见 到 的 ，match 运 算 符 与 Perl 环 境 之 间 的 
互相 影响 。 

match 运 算 符 的 伴随 效应 

通常 ， 成 功 匹 配 的 伴随 效应 比 返回 值 更 重要 。 事 实 上 ， 在 void 
context 中 使 用 match 运 算 符 (这样 甚 至 不 必 检 查 返 回 值 ) ， 只 是 为 了 获 
取 伴随 效应 (这 种 情况 类 似 scalar context) 。 下 面 总 结 了 成 功 匹配 的 伴 
随 效 应 ; 


e 匹配 之 后 会 设置 $1 和 @+ 之 类 变量 ， 供 当前 语法 块 内 其 他 代码 使 
用 (299) 。 

e 设 置 默认 正则 表达 式 ， 供 当前 语法 块 内 其 他 代码 使 用 (号 
308) 。 

e 如 果 m? ...? 能 够 匹配 ， 它 (也 就 是 m? ...? 运算 符 ) 会 被 标记 
为 无 法 继续 匹配 ， 至 少 在 同样 的 package 中 ， 不 调用 reset 就 无 法 继续 匹 
配 (308) 。 

当然 ， 这 些 伴随 效应 只 能 在 匹配 成 功 时 发 生 ， 不 成 功 的 匹配 不 会 
影响 它们 。 相 反 ， 下 面 的 伴随 效应 在 任何 匹配 中 都 会 发 生 : 

e 目 标 字 符 串 的 pos 会 指定 或 者 重 置 (313) ° 

e 如果 使 用 了 /o， 正 则 表达 式 会 与 这 个 运算 任 “ 融 为 一 体 

(fuse) ”， 不 会 重新 求 值 (evaluate, 352) ° 
match 运 算 符 的 外 部 影响 

match 运 算 从 的 行为 会 受到 运算 元 和 修饰 从 的 影响 。 下 面 总 结 了 影 
啊 match 运 算 符 的 外 部 因素 : 

应 用 场合 context 

match 运 算 符 的 应 用 场合 (scalar、list， 或 者 void) 对 匹配 的 进行 、 
返回 值 和 伴随 效应 有 重要 影响 。 

pos(...) 

目标 字符 串 的 pos (由 前 一 次 匹配 显 式 或 隐 式 设 定 ) 表示 下 一 次 /g 
匹配 应 该 开始 的 位 置 ， 同 时 也 是 \G | 匹配 的 位 置 。 


默认 表达 式 
如 果 提 供 的 正则 表达 式 为 空 ， 就 使 用 默认 的 表达 式 (308) 。 
study 


对 匹配 的 内 容 或 返回 值 没 有 任何 影响 ， 但 如 果 对 目标 字符 串 调 用 
此 函数 ， 匹 配 所 花 的 时 间 更 少 〈 也 可 能 更 多 ) 。 参 考 “Study 函 数 ”(G 
359) ° 

m? ...? 和 reset 

m? ...? 运算 符 有 一 个 看 不 见 的 “已 /未 匹配 ”状态 ， 在 使 用 
m? ...? 匹配 或 者 reset 时 设 定 (308) ° 


在 context 中 思考 (不 要 忘记 context) 

在 match 运 算 符 讲解 结束 之 前 ， 我 要 提 几 个 问题 。 尤 其 是 ， 在 
while、if 和 foreach 控 制 结构 中 发 生变 化 时 ， 确 实 需要 保持 头脑 清醒 。 请 
问 ， 运 行 下面 的 程序 会 得 到 什么 结果 ? 


while ("Larry Curly Moe" =~ m/\wt/g) { 
print "WHILE stooge is $&.\n"; 


} 


print T\n"7; 


if ("Larry Curly Moe" =~ m/\wt/g) { 
print "IF stooge is $&.\n"; 
} 


print "An"; 


foreach ("Larry Curly Moe" =~ m/\wt/g) { 
print "FOREACH stooge is $&.\n"; 
} 


这 有 点 儿 难 度 ， w 请 翻 到 下 页 查看 答案 。 


yo 


Substitution 运 算 符 


The Substitution Operator 

Perl 的 substitution 运 泪 符 s/.../.../ 不 但 能 够 匹配 ， 还 能 够 蕉 换 匹 配 的 
文字 。 通 党 的 形式 是 : 

$text=~s/regex/replacement/modifiers 

fa) KUL, regex 匹配 的 文本 会 奉 换 为 replacement 的 值 。 如 采 使 用 
了 /g， 这 个 正则 表达 式 会 重复 应 用 到 文本 中 进行 匹配 ， 每 次 匹配 的 内 容 
EDR TR 。 

与 match 操作 一 样 ， 如 有 果 目 标 字 符 串 在 变量 $_ 中， 目标 运算 元 和 = 
一 都 不 是 必须 的 。match 运 算 符 可 以 省 略 正 ， 而 substitution 不 能 省 略 s。 

我 们 已 经 看 到 ，match 运 和 滤 符 是 非常 复杂 的 一 一 它 的 工作 原理 ， 它 
的 返回 值 ， 都 取决 于 它 所 在 的 应 用 场合 ， 目 标 字 符 串 的 pos， 以 及 使 用 
的 修 岳 符 。 相 反 ，substitution 运 算 符 很 简单 : 它 返 回 的 信息 是 不 变 的 

(表示 替换 的 次 数 ) ， 影 响 它 的 修饰 符 也 很 好 理解 。 

你 可 以 使 用 第 292 页 介绍 的 所 有 核心 修 贤 符 ， 但 是 substituion 运 算 

符 还 支持 另外 两 个 修饰 符 ，/8， 以 及 马上 将 要 介绍 的 /e。 


运算 元 replacement 


The Replacement Operand 


在 普通 s/.../.../ 中 ，replacement 紧 跟 在 regex 之 后 ; m/.../ 使 用 两 个 分 
隔 符 ， 而 这 里 要 使 用 3 个 。 如 果 正 则 表达 式 使 用 对 称 的 分 隔 符 (例如 
<...>) ， 则 replacement 有 自己 的 一 对 分 隔 符 〈 这 样 总 共 就 有 4 个 分 隔 
符 ) 。 举 例 来 说 ，s{...}{...} 和 和 s[...]/.../ 和 s<...>>'...' 都 是 合法 的 。 这 种 
情况 下 ， 两 对 分 隅 符 可 以 用 空白 字符 分 隔 ， 如 果 使 用 了 空白 字符 ， 还 
可 以 添加 注释 。 对 称 的 分 隔 符 通常 在 /x 或 /e 中 使 用 。 


$text =~ st{ 


. .复杂 的 表达 式 ， 大 量 的 注释 ， 以 及 . . . 


. .对 一 段 Perl 代码 求 值 ， 把 结果 作为 replacement... 
}ex; 

请 注意 区 分 regex 和 replacement。regex 会 按照 正则 表达 式 的 方式 来 
fe, AB CAUSE (291) ° replacement 则 会 当 作 普通 的 双 引 号 
字符 串 来 解析 和 求 值 (evaluate) 。 求 值 会 在 匹配 之 后 进行 《如 果 使 用 
了 /g， 每 次 匹配 之 后 都 会 求 值 ) ， 所 以 $1 之 类 的 变量 能 够 指向 对 应 的 匹 
配 内 容 。 

在 下 面 两 种 情况 下 ，replacement 不 会 按照 双 引 号 字符 串 来 解析 : 

ereplacement 的 分 隅 符 是 单 引 号 ， 此 时 作为 单 引号 字符 串 ， 不 会 进 
行 变量 插值 。 

e 使 用 了 /e 修 饰 符 (下 一 节 讨 论 ) ，replacement 会 作为 一 小 段 Perl 代 
码 而 不 是 双 引 号 字符 串 。 这 一 小 段 Perl 代 码 会 在 每 次 匹配 之 后 执行 ， 结 
果 作 为 replacement 。 


/e 修 饰 符 


The/e Modifier 

/e 修 饰 伯 会 把 replacement 作 为 一 段 Perl 代 码 来 进行 求 值 ， 这 就 类 似 
eval{...}。 代码 装载 时 ， 首 先 会 检查 这 段 代码 的 语法 ， 确 保 没 有 错误 ， 
但 是 每 次 匹配 之 后 都 会 对 代码 重新 求 值 。 每 次 匹配 之 后 ，replacement 都 
会 在 scalar context 中 重新 求 值 ， 结 果 作 为 replacement。 下 面 有 个 简单 的 
例子 : 

$text=~s/-time-/localtime/ge; 

在 scalar context 中 ， 它 会 用 Perl 的 localtime 函 数 的 结果 (也 就 是 返回 
表示 当前 时 间 的 文本 ， 例 如 “Mon Sep 25 18: 36: 512006”) 替换 
time-| ° 

因为 求 值 是 每 次 匹配 之 后 进行 的 ， 我 们 可 以 通过 $1 等 变量 引用 匹 
配 的 内 容 。 例 如 ，UREL 中 不 容许 出 现 的 特殊 字符 ， 可 以 编码 为 百 分 
号 “9%2” 加 两 位 十 六 进 制 数 的 形式 。 为 了 编码 所 有 这 种 字符 ， 可 以 这 样 : 


测验 从 案 


© 318 页 测验 的 答案 
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WHILE stooge is Larry. 
WHILE stooge is Curly. 
WHILE stooge is Moe. 


IF stooge is Larry. 


FOREACH stooge is Moe. 
FOREACH stooge is Moe. 
FOREACH stooge is Moe. 


请 注意 ， 如 果 foreach MAP print 引用 了 S$ ATRASE, RHAH while 的 一 
样 。 在 这 个 foreach P, m//g MMH ('Larry', 'Curly', 'Moe') FLA RA. 
相反 倒是 使 用 了 伴随 效应 中 的 S5， 这 表示 程序 有 错误 ， 因 为 list context 的 伴随 效应 ， 
m/…/g 并 不 常用 。 


$url=~s/([Aa-zA-Z0-9])/sprintf('%%%02x', ord($1))/ge; 

下 面 的 程序 可 以 用 来 解码 : 

$url=~s/%([0-9a-f][0-9a-f])/pack( " C " ,hex($1))/ige; 

简单 地 说 ，sprintf ('%%%02x', ord (character) ) 把 字符 转换 为 
对 应 的 URL 编码 ， 而 pack ("C", value) 的 作用 相反 ， 请 参考 你 常 
用 的 Per 文档 获取 更 多 信息 。 

多 次 使 用 /e 

通常 情况 下 ， 对 单个 运算 符 多 次 使 用 同一 修饰 符 没 有 特殊 意义 

(只 有 让 读者 更 困惑 ) ， 但 是 重复 /e 修 饰 符 却 会 改变 replacement 的 替换 

过 程 。 正 常情 况 下 ，replacement 会 进行 一 次 求 值 ， 但 是 如 采 'e@’ 的 数目 
多 于 1 个 ， 则 Perl 又 会 对 求 值 的 结 采 进行 求 值 ， 如 此 一 直 进 行 下 去 ， 求 
值 的 次 数 与 ‘@ 的 数目 一 样 多 。 或 许 它 的 主要 价值 是 用 作 比 较 Perl 代 码 复 
杂 性 的 测试 。 


不 过 此 功能 并 非 完全 无 用 。 如 果 需 要 手动 进行 变量 插值 (例如 从 
配置 文件 读 入 字符 串 ) 。 也 就 是 说 ， 有 一 个 字符 串 “...$var... ， 我 们 希 
望 把 ‘$var’ 替 换 为 $var 的 值 。 

fal AW AIR ce: 

$data=~s/(\$[a-zA-Z_]\w * )/$1/eeg; 

如 末 不 使 用 /e， 则 会 蕉 换 匹 配 的 ‘$var? 目 喘 ， 这 没什么 用 。 使 用 一 
个 /e， 会 对 $1 重新 求 值 ， 得 到 “$var*， 这 样 也 没什么 意义 ， 同 样 是 用 匹 
配 的 文本 符 换 目 号 。 但 是 如 果 使 用 两 个 e， 则 '$var' 会 重新 求 值 ， 得 到 
内 容 ， 这 样 就 模拟 了 变量 插值 。 


应 用 场合 与 返回 值 


Context and Return Value 

根据 context 和 /g 的 不 同 组 合 ，match 运 算 符 会 返回 不 同 的 值 。 不 
过 ，substitution 运 算 符 没有 这 么 复杂 一 一 它 退 回 的 要 么 是 蔡 换 发 生 的 次 
数 ， 要 么 是 至 字符 串 ， 表 示 没 有 发 生 任何 替换 。 

为 使 用 方便 ， 返 回 值 为 Boolean 时 (例如 在 if 条 件 语句 中 ) ， 只 
ZETE, KEPE Atre, false Kn ER o 


Split 运 算 符 


The Split Operator 

功能 多 样 的 split 运 算 符 〈 在 不 那么 严格 的 时 候 ， 人 们 通常 称 其 为 
KRO 常 被 视 为 list context 中 m/.../g (311) 的 对 立 物 。 后 者 返回 表 
达 式 匹配 的 文本 ， 而 split 返 回 由 表达 式 匹配 的 文本 分 隔 的 文本 。 把 
$text= ~ m/: /g 应 用 到 'IO.SYS : 225558: 95-10-03: -a-sh : 
optional 中， 返回 四 个 元 素 的 list: 


这 似乎 没什么 用 ， 但 是 split (/: /, $text) 返回 5 个 元 素 的 list: 

(TIO.SYS','225558','95-10-03','-a-sh','optional') 

两 个 例子 都 告诉 我 们 ，“: ， 匹配 了 4 次 。 使 用 split， 这 4 次 匹配 把 
目标 字符 串 的 副本 分 隔 为 5 段 ， 返 回 包含 5 个 字符 串 的 list 。 

这 个 例子 只 用 单个 字符 分 隔 目 标 字 符 串 ， 其 实 我 们 可 以 使 用 任何 
正则 表达 式 : 

@Paragraphs=split(m/s * < p> \s * /i,$html); 

它 会 按照 <p> 或 者 <P> (两 边 可 能 有 空 晶 字符) 把 $html 中 的 
HTML 代 码 分 隔 开 来 。 你 甚至 可 以 按 位 置 分 隔 : 

@Lines=split(m/‘/m,$lines); 

把 字符 串 按 行 切 分 。 

对 最 简单 形式 的 数据 来 说 ，split 非 常 有 用 也 很 容易 理解 。 不 过 ， 
因为 存在 许多 参数 、 特 殊 情况 和 特殊 情形 ， 事 情 会 变 得 复杂 。 在 深入 
这 些 细 市 之 前 ， 先 给 出 两 个 特别 有 用 的 例子 : 

e 特 殊 的 match 运算 符 /， 会 把 目标 字符 串 切 分 为 单个 字符 ， 也 就 
是 说 ，split (//, "short test") 得 到 10 个 元 素 的 list: ("s", "h 
a PA eaa sea as, uke 

e 特 殊 的 match 运算 符 "."” (包含 单 个 空格 的 普 
标 字 符 捉 按照 空白 字符 切 分 ， 等 于 使 用 mAs+/， 只 是 


FT) 把 目 
会 忽略 开头 和 结 


尾 的 空白 字符 。 这 样 ，split ("-" , "-+ashort-test-") 得 到 三 个 
FFE: ‘a’ > ‘short’ #ll‘test’ ° 
稍 后 讨论 各 种 特殊 情况 ， 我 们 先 来 看 基础 的 部 分 。 


Split 基 础 知识 


Basic Split 
split 运 滤 符 看 起 来 像 贸 数 ， 它 接收 3 个 参数 : 
split(match operand,target string,chunk-limit operand) 


括号 是 可 选 的 ， 未 提供 的 运算 元 会 设置 为 默认 值 (AT Hart 


split 总 是 在 list context 中 使 用 ， 常 用 的 模式 包括 : 
(Svarl, Svar2, Svar3, =) = split (**); 


for my Sitem (split(:-::)) { 


} 

match 运 算 元 

运算 元 match 有 几 种 特殊 情况 ， 不 过 它 通 常 等 价 于 match 控 作 中 的 
regex 运 算 元 。 也 就 是 说 ， 你 可 以 使 用 /.../ 和 mf{...} 之 类 的 形式 ， 它 可 以 
是 regex 对 象 ， 或 者 任何 能 够 求 值 为 字符 串 的 表达 式 。 它 只 支持 第 292 
页 介绍 的 核心 修饰 符 。 

如 果 继 续 要 用 括号 来 分 组 ， 请 务必 使 用 非 捕 获 型 括号 
(2: ...) ，。 我 们 稍 后 将 会 看 到 ， 在 split 中 使 用 捕获 型 括号 会 触发 
极 特 殊 的 功能 。 

target string 运 算 元 

target string 只 用 于 检测 ， 绝 不 会 被 修改 。 如 果 没 有 设 定 ， 默 认 使 
用 $_。 


chunk-limit 运 算 元 


chunk-limit 运算 元 的 主要 功能 是 设 定 split 切 分 字符 串 的 数目 上 
限 。 对 上 面 的 例子 中 同样 的 目标 字符 串 调 用 split (/: /, $text, 3) 得 
到 : 

(‘1O.SYS','225558','95-10-03:-a-sh:optional') 

这 告诉 我 们 ，/: /匹配 两 次 之 后 split 会 终止 ， 产 生 所 需 的 3 段 。 它 
可 能 可 以 匹配 更 多 的 次 数 ， 但 这 里 不 需要 ， 因 为 存在 段 的 数目 限制 。 
设 定 的 数目 将 作为 上 限 ， 所 以 最 多 只 能 返回 规定 数目 的 元 素 (除非 正 
则 表达 式 包含 捕获 型 括号 ， 后 文 会 论 及 ) 。 得 到 的 元 素数 目 可 能 少 于 
上 限 ， 如 宁 得 到 的 分 段 少 于 规定 的 数目 ， 也 不 会 有 多 余 的 内 容 来 * 填 
充 ”。 对 于 示例 所 用 的 数据 ，split(/:/，$text，99) 返 回 的 list 只 有 5 
个 元 素 。 不 过 ，split (/: /, $text) 和 split (/:/,$text，99) 有 重要 
的 区 别 ， 这 里 暂时 还 看 不 出 来 一 一 请 记 住 这 一 点 ， 稍 后 我 们 会 仔细 讲 


解 


记 住 ，chunklimit 运 算 元 指向 的 是 各 匹配 之 间 的 分 段 ， 而 不 是 下 
配 的 数目 本 喘 。 否 则 ， 前 面 那 个 上 限 为 3 的 例子 或 应 该 得 到 这 个 : 

(TIO.SYS','225558','95-10-03','-a-sh:optional') 

这 不 是 程序 运行 的 结果 。 

这 里 谈 谈 效率 ， 假设 只 希望 取 开 头 的 几 个 元 素 ， 例 如 : 

($filename, $size, $date)=split(/:/, $text); 

为 了 提高 效率 ， 在 需要 的 元 素 赋值 之 后 ，Perl 会 停止 split 操 作 。 
它 会 自动 把 chunk-limit 设 置 为 list 的 元 素 个 数 +1。 

深入 split 

从 我 们 接触 过 的 例子 来 看 ，split 很 容易 使 用 ， 但 有 三 个 特殊 的 问 
题 增 加 了 它 实 践 起 来 的 复杂 程度 : 

e 返 回 衬 元 素 。 

e 特 殊 的 regex 运 算 符 。 

e 包 合 捕 获 型 括号 的 regex。 

下 面 分 别 讨论 。 


Returning Empty Elements 
split 的 基本 功能 是 返回 由 各 个 匹配 分 隔 的 分 本 ， 但 有 的 时 候 ， 返 
回 的 文本 是 空 字符 串 〈 长 度 为 0 的 字符 串 ， 例 如 ” ") ， 比 如 : 


@nums = split(m/:/, "12:34;3,:,78") 


它 返 回 : 

( 12 ，34 ， ，78 ) 

正则 表达 式 : | 匹配 了 3 次 ， 所 以 应 当 返回 4 个 元 素 。 第 3 个 元 素 
为 空 ， 表 示 正 则 表达 式 在 一 行 中 匹配 了 两 次 ， 它 们 之 间 没 有 文本 。 


结尾 的 空 元 素 
通常 情况 下 ， 结 尾 的 空 元 素 不 会 返回 ， 例 如 : 

@nums = split (m/:/, "12:34::78::3"); 
同样 会 返回 4 个 元 素 : 


("12°,°34",° "," 78") 

BU sik PS TEM FETA SUE FF BR BEDE ES, SAR 
没有 变化 。 在 默认 情况 下 ，split 不 会 返回 list 末 尾 的 空 元 素 。 不 过 ， 我 
们 可 以 通过 设 定 chunk-limit 运 算 元 ， 让 split 返 回 所 有 的 末尾 元 素 。 

chunk-limit 运 算 元 的 次 要 职能 

chunk-limit 的 主要 用 途 是 设 定 分 段 数目 的 上 限 ， 任 何不 等 于 0 的 
chunk-limit 都 会 保留 末尾 的 空 元 素 (chunk-limit 设 置 为 零 等 价 于 不 设置 
chunk-limit) 。 如 果 你 不 希望 限制 返回 的 chunk 的 数目 ， 但 是 希望 保留 
末尾 的 空 元 素 ， 只 需要 设置 一 个 非常 大 的 限制 即 可 。 或 者 更 好 的 办 法 
是 ， 设 置 为 -1， 因 为 chunk-limit 为 负数 表示 一 个 足够 大 的 上 限 : split 

(/: /, $text, -1) 会 返回 所 有 的 元 素 ， 包 括 末 尾 的 空 元 素 。 

另 一 个 极端 是 ， 如 果 你 不 希望 保留 任何 空 元 素 ， 可 以 在 split 之 前 
使 用 grep{length}。 使 用 grep 之 后 ， 只 会 返回 长 度 不 为 0 的 元 素 (也 就 是 
W, JEZA) 

my@NonEmpty=grep {length} split(/:/, $text); 


字符 串 末 尾 的 特殊 匹配 
在 字符 串 开头 的 匹配 会 产生 一 个 空 元 素 : 
@nums = split(m/:/, "12:34::78") 


@num 的 值 为 : 

(" 12 ee " aruer e 

开始 的 空 元 素 表明 ， 正 则 表达 式 在 字符 串 的 开头 能 够 匹配 。 不 过 
也 有 例外 ， 如 果 一 个 正则 表达 式 没有 匹配 任何 文本 ， 如 果 它 在 字符 串 
的 开头 或 者 结尾 匹配 ， 那 么 开头 和 /或 结尾 的 空 元 素 将 不 会 生成 。 来 看 
个 简单 的 例子 : split (Ab/, "asimple test") ， 它 能 够 匹配 其 中 的 6 
个 位 置 ac Simples test,’ ，。 即 使 它 能 匹配 6 次 ， 也 不 会 返回 7 个 元 
素 ， 而 是 5 个 元 素 : ("a", "e", "simple", "+", "test") 
其 实 ， 这 种 特殊 情况 我 们 已 经 见 过 ， 即 第 321 页 的 @Lines=split 

(m/^/m, $lines) 


Split 中 的 特殊 Regex 运 算 元 


Split's Special Regex Operands 

split 的 match 运 算 元 通常 就 是 正则 文字 或 者 regex 对 象 ， 这 与 match 
运算 符 的 情况 一 样 ， 不 过 也 有 例外 : 

eregex 为 空 的 意思 不 是 “使 用 当前 的 默认 正则 表达 式 ”， 而 是 把 目 
标 字 符 串 分 割 为 字符 。 在 刚 开始 讨论 split 的 时 候 我 们 见 过 这 个 例子 ， 
split (//, "short test") 返回 10 个 元 素 的 list: ("s", "h", "o 
| 

e 如 果 match 运 算 元 是 由 单个 空格 构成 的 字符 串 (而 不 是 正则 表达 
式 ) ， 则 是 另 一 种 特殊 情况 。 它 基本 等 同 与 As+/， 只 是 会 忽略 开头 的 
空白 字符 。 这 主要 是 为 了 模拟 awk 对 输入 进行 的 默认 的 输入 -记录 -分 
fj (input-record-separator) 操作 ， 尽 管 对 普通 情况 来 说 它 也 很 有 用 。 

如 果 和 希望 保留 开头 的 空白 字符 ， 可 以 直接 使 用 mA 人 s+/。 如 有 果 希 望 
你 留 末 尾 的 空 晶 字符， 只 需要 把 chunk-limit 设 置 为 -1 ° 


e 如 果 没有 设置 regex 运 算 元 ， 则 默认 使 用 一 个 空格 符 (上 面 提 到 
oon o 这 样 ， 不 带 任何 运算 元 的 split 束 等 价 于 split C, $_, 
0 o 

e 如 果 regex 为 '^，， 会 自动 使 用 修饰 符 /m (增强 型 行 锚 点 匹配 模 
式 ) 。 (因为 菜 些 原因 ，'$, WAT) 。 因 为 明确 使 用 m/NVm 非 常 容 
易 ， 我 推荐 这 种 更 清晰 的 写法 。m/Vm 是 把 包含 多 行文 本 的 字符 串 按 
行 切 分 的 简便 方法 。 

Split 不 产生 伴随 效应 

请 注意 ，split 的 match 运 算 元 看 起 来 很 像 普通 的 match 运 算 符 ， 但 
是 它 没 有 任何 伴随 效应 。split 中 的 正则 表达 式 不 会 影响 到 之 后 的 match 
或 是 substitution 探 作 所 用 的 默认 正则 表达 式 ， 也 不 会 设置 $& 、$’、$1 
之 类 的 变量 。split 在 伴随 效应 上 完全 独立 于 程序 的 其 他 部 分 ( 注 8) 


Split 中 带 捕 获 型 括号 的 match 运 算 元 


Split's Match Operand with Capturing Parentheses 

捕获 型 括号 会 从 整体 上 改变 split。 一 旦 使 用 了 捕获 型 括号 ， 返 回 
的 list 中 会 多 出 些 独 立 的 元 素 ， 它 们 对 应 于 括号 捕获 的 元 素 。 也 了 束 是 
说 ，split 没有 返回 的 部 分 或 全 部 的 文本 ， 会 包 舍 在 返回 的 list 中 。 

例如 ， 在 处 理 HTML 时 ， 对 下 面 的 文本 调用 split (/ (<[A>]* 
> 

...and: < B > very: < FONT:color=red > very < /FONT > ‘much </B > 
‘effort... 


返回 : 


。 "and"'，， '<B>', 'very*', '<FONT*color=red>', 
‘vyery", “</FONT>', ‘much’, ‘*</B>", ‘**effort..." ) 


如 果 去 掉 捕 获 型 括号 ，split V<[A>]*>/) 返回 : 

(.…and…,very' ,very, "much',effort...") 

多 出 来 的 元 素 不 受 分 段 上 限 的 限制 (chunk-limit 限制 原来 字符 串 
切 分 之 后 的 分 段 数目 ， 而 不 是 返回 元 素 的 数目 ) 。 


如 有 果 包 含 多 个 捕获 型 括号 ， 每 次 匹配 之 后 ，list 会 多 出 多 个 元 素 。 
如 果 某 个 捕获 型 括号 没有 参与 匹配 ， 对 应 的 元 素 为 undef 。 


巧 用 Perl 的 专 有 特性 


Fun with Perl Enhancements 

最 先 由 Perl 提供 的 许多 正则 表达 式 概 念 ， 现 在 其 他 语言 也 提供 
了 了。 包括 非 捕获 型 括号 、 环 视 (以 及 之 后 的 逆序 环视 ) 、 宽 松 排列 模 
式 〈 其 实 是 大 多 数 模式 ， 实 际 上 还 包括 配套 的 \A，、Tz 和 
AZ) 、 国 化 分 组 、 NG) 和 条 件 判断 结构 。 这 些 概念 不 再 是 Penl 独 有 
的 ， 所 以 我 把 它们 挪 到 本 书 的 通用 部 分 。 

不 过 Perl 者 也 没有 停止 创新 ， 所 以 现在 还 有 些 重 要 的 概念 只 有 Perl 
提供 。 其 中 最 有 意思 的 是 在 匹配 尝试 中 执行 任意 代码 的 功能 。 长 期 起 
来 ，Perl 的 特点 之 一 加 是 正则 表达 式 与 代码 的 紧密 集成 ， 但 是 此 特性 把 
集成 提升 到 了 新 的 高 度 。 

我 们 移 来 答 单 看 看 这 个 特性 和 目前 Perl 独 有 的 其 他 特性 ， 然 后 详细 
讲解 。 

动态 正则 结构 (? ? {perl code}) , 

应 用 正则 表达 式 时 ， 每 次 遇 到 表达 式 中 的 这 个 结构 ， 就 会 执行 其 
中 的 Perl 人 代码。 执行 的 结果 (或 者 是 regex 对 象 ， 或 者 是 解释 为 正则 表 
达 式 的 字符 串 ) 会 作为 当前 匹配 的 一 部 分 即刻 被 应 用 。 

A (\d+) (?24"X{$1}"}) S 中 的 动态 正则 结构 以 下 画 线 标 注 ， 这 个 
正则 表达 式 匹 配 的 行 开 头 是 一 个 数 ， 然 后 是 字符 ‘X’ 必 须 重 现 对 应 的 次 
数 ， 直 到 行 末 尾 。 

它 能 匹配 ‘3XXX’ 和 ‘12XXXXXXXXXXXX ， 但 不 能 
配 ‘3X’ 或 (7XXXX’。 

(FONE XXX’ RLS RM, FLAT! d+) ， 匹配 ,3Xxx，， 把 $1 设 
为 ‘3，。 之 后 正则 引 警 遇 到 动态 正则 结构 ， 执 行 “X{$1}”， 得 到 ‘X{3}， 
解释 得 到 的 “X{3}, 作为 当前 正 

则 表达 式 的 一 部 分 (匹配 ' 3XxXX") , ABA '$, 匹配 ‘3XXX”， 
得 到 整体 匹配 。 


下 面 我 们 会 看 到 ， 匹 配 任意 深度 的 般 套 结构 时 ， 动 态 正则 结构 尤 
其 有 用 。 

ERA | (? {arbitrary perl code}) | 

与 动态 正则 结构 一 样 ， 在 正则 表达 式 的 应 用 过 程 中 ， 遇 到 此 结构 
也 会 执行 其 中 的 Perl 代码， 但 是 这 个 结构 更 为 通用 ， 因 为 代码 不 需要 返 
回 任何 特定 的 值 。 通 常 也 不 会 用 到 返回 值 〈 不 过 如 果 表 达 式 之 后 的 部 
分 需要 ， 可 以 通过 变量 $ 和 AR 得 到 302) 。 

有 一 种 情况 会 用 到 这 段 代 码 的 执行 结果 : 如 采 内 崩 的 代码 结构 用 
fe" (? ifthenlelse) | 中 的 if 条 件 (140) 。 此 时 ， 结 果 会 解释 为 布尔 
值 ， 根 据 它 来 决定 执行 hen 还 是 else 分 文 。 

内 和 花 代码 可 以 干 许多 事情 ， 相 当 有 用 的 束 是 调试 。 下 面 这 段 程 序 
会 在 每 次 应 用 正则 表达 式 时 显示 一 条 信息 ， 内 般 的 代码 结构 用 下 画 线 
标注 : 


"hava a nice day" =~ mt{ 
(?{ print "Starting match.\n"}) 
\b(?: the | an | a )\b 

}x; 


测试 中 ， 正 则 表达 式 只 匹配 1 次 ， 但 是 信息 会 显示 6 次 ， 说 明 传动 
装置 在 第 6 次 尝试 之 前 已 经 在 5 个 位 置 应 用 了 正则 表达 式 ， 第 6 次 可 以 完 
全 匹配 。 

正则 文字 重 载 

正则 文字 重 载 能 够 让 程序 员 先 自行 处 理 正则 文字 ， 再 将 它们 交 给 
正则 引擎 。 它 可 以 用 来 为 Pen 的 正则 流派 扩展 新 的 功能 。 例 如 ，Perl 没 
有 提供 单独 的 单词 起 始 和 结束 分 隔 符 (只 有 “\b, ) ， 不 过 你 可 能 希望 
使 用 < 和 \> ， 让 Per 能 够 识别 这 些 结构 。 

正则 重 载 有 些 重 要 的 限制 ， 严 格 制约 了 它 的 用 途 。 在 讲解 \< 与 \> 
的 例子 时 我 们 会 看 到 这 一 点 。 

如 果 正 则 表达 式 中 内 内 了 Pen 代码 〈 无 论 是 动态 正则 结构 还 是 内 航 
代码 结构 ) ， 最 好 是 只 使 用 全 局 变量 ， 除 非 你 明白 关于 338 页 讲解 的 
my 变量 的 重要 知识 。 关 于 my 变量 的 讨论 ， 请 参阅 第 338 页 。 


用 动态 正则 表达 式 结构 匹配 舱 套 结构 


Using a Dynamic Regex to Match Nested Pairs 

BAAS TENN FIA SUAS EAR ZAC REN RE (长 
入 以 来 人 们 认为 正则 表达 式 对 此 无 能 为 力 ) o DEALER EER REGS 
号 是 个 重要 的 例子 。 为 了 说 明日 动态 正则 如 何 解决 这 个 问题 ， 我 们 首 
完 必须 知道 传统 结构 为 什么 不 能 解决 这 个 问题 。 

匹配 括号 文本 的 简单 表达 式 是 、( (IA O D xy | 。 在 外 层 括 
SARA HUMES. PROBATE RE (也 就 是 ， 只 容许 深度 为 0 的 
RE) 。 用 regex 对 象 来 表示 就 是 : 


my $Level0 = qr/ \( ( [*()] )* \) /x; # 括号 内 文本 


if ($text =~ m/\b( \wł$Level0 )/x) { 
print "found function call: $1\n"; 


} 
这 能 够 匹配 “substr ($str, 0, 3) ”， 但 不 能 配 “substr ($str, 0, 
(3+2) ) ”， 因 为 它 包含 舰 套 的 括号 。 现 在 修改 正则 表达 式 来 处 理 

它 ， 也 就 是 需要 能 够 处 理 深 度 为 1 的 磐 套 。 

容许 深度 为 1 的 藤 套 意味 着 ， 外 部 的 括号 里 头 可 以 出 现 插 号 。 所 
以 ， 我 们 需要 修改 匹配 外 层 括号 内 文本 的 表达 式 [A O ] | ， 添 加 一 个 
子 表达 式 匹 配 内 层 括 号 里 的 文本 。 我 们 可 以 这 样 ，$Level0 保 存 这 样 一 
个 正则 表达 式 ， 再 从 此 往 上 县 加 ; 


my $Level0 = gr/ \( ( [^0] )* \) /x? # 括号 内 文本 
my $Levell = qr/ \( ( [^()]| $LevelO )* \) /x; # L1ERE 


这 里 的 $Level0 与 之 前 的 相同 ， 新 出 现 了 $Level1， 匹 配对 应 深度 的 
括号 ， 加 上 $Level0， 就 得 到 深度 为 1 的 藤 套 。 

为 了 增加 骨 套 的 深度 ， 我 们 可 以 用 同样 的 方法 ， 通 过 $Levell ( 仍 
然 使 用 $Level0) 得 到 $Level2: 


my $Level0 = qr/ \( ( [*()] )* \) /x; # 括号 内 文本 
my S$Levell = qr/ \( ( [*()] | $Level0 )* \) /x; # [ERE 
my $Level2 = qr/ \( ( [^()] | $Levell )* \) /x; # 2EKE 


ARES BA Wie: 


my $Level3 = qr/ \( ( [*()] ; $Level2 )* \) /x; # 3 ERE 
my $Level4 = qr/ \( ( [*()] ; $Level3 )* \) /x; # 4ERFE 
my $Level5 = qr/ \( ( [*()] ¢ $Level4 )* \) /x; # SERRE 


图 7-1 说 明了 开始 几 层 的 情况 ; 


\(( Cac] | Ml )* \ ) | 


VEO) | Ml )* U| 
MO veers AND ) 


图 7-1: 层 数 较 少 的 嵌 套 
把 这 些 层级 加 起 来 的 结果 很 复杂 ， 下 面 是 $Level13: 


COINCID * \)) *\)) KY KY 

这 相当 难看 。 

幸运 的 是 ， 我 们 不 需要 直接 解释 它 〈 那 是 正则 引 警 的 工作 ) 。 使 
用 $Level 变 量 很 容易 处 理 ， 但 问题 是 ， 崩 套 的 深度 是 由 $Level 变 量 的 数 
目 决定 的 。 这 种 办 法 不 够 灵活 (用 黑 非 定律 来 说 就 是 ， 如 果 程 序 能 处 
理 深 度 为 X 的 磐 套 ， 则 遇 到 的 数据 的 舱 套 深度 必定 会 是 X+1) 。 

对 和 运 的 是 ， 动 态 正则 可 以 应 付 任 意 深 度 的 舱 套 。 你 只 需要 想 明 
白 ， 除 第 一 个 之 外 ， 每 个 $Level 变 量 的 构建 方式 都 是 相同 的 ， 需 要 增加 
一 级 藤 套 深度 时 ， 只 需要 包含 上 一 级 的 $Level 变 量 即 可 。 但 如 果 $Level 
变量 都 是 相同 的 ， 它 就 同 样 能 包含 更 深 级 别 的 $Level。 事 实 上 ， 它 还 可 
以 包括 自身 。 如 果 在 匹配 更 深层 的 租 套 时 它 可 以 用 某 种 方式 包含 自 
身 ， 束 能 递归 地 处理 任意 深度 的 航 套 。 


这 就 是 动态 正则 的 威力 所 在 。 如 果 我 们 创建 一 个 regex 对 象 一 tk 
如 $Level 变 量 ， 就 可 以 在 动态 正则 中 引用 它 (动态 正则 结构 可 以 包含 任 
意 的 Perl 代码 ， 只 要 结果 能 被 解释 为 正则 表达 式 ， 返 回 已 存在 的 regex 
对 象 的 Perl 代 码 当 然 符合 要 求 ) 。 如 果 我 们 能 把 $Level 之 类 的 regex 对 象 
放 入 $LevelN， 就 可 以 用 (2 ? {$LevelN}) , 来 引用 它 : 


my $LevelN; # 必须 首先 声明 ， 下 面 才 能 使 用 
$LevelN = qr/ \(( [*()] | (??{ $LevelN }) )* \) /x; 
它 就 能 匹配 任意 深度 的 骸 套 括号 ， 用 法 同 之 前 的 $Level0: 

if ($text =~ m/\b( \w+$LevelN )/x) { 


print "found function call: $1\n"; 


} 

哈 ! AAR Ae AABN ST, MEM, 
会 发 现 这 个 工具 的 价值 。 

现在 我 们 已 经 有 了 基本 的 办 法 ， 我 希望 做 些 修改 提高 效率 。 我 会 
STRATES AR LTA (这 里 既 不 需要 捕获 文本 ， 也 不 需要 回 
溯 ) ， 之 后 可 以 把 O 1, 改 为 '[^() H 提高 效率 。 (不 要 在 固 
化 分 组 中 这 样 做 ， 否 则 会 造成 无 休止 匹配 226) 

最 后 ， 我 希望 把 \、( 和 '\) ， 移动 到 动态 正则 表达 式 两 端 。 这 
样 ， 在 确实 需要 用 到 之 前 ， 引 警 不 会 直接 调用 动态 正则 结构 。 下 面 是 
修改 之 后 的 版 本 : 

$LevelN=qr/(? > [AQ]+\((??{$LevelN })\)) * /x; 

因为 它 不 包含 外 部 的 \ C.A) ，， 调 用 $LevelN 时 必须 手动 添加 。 

这 样 一 来 ， 表 达 式 就 十 分 灵活 ， 可 以 在 任何 可 能 出 现 肉 套 括 号 的 
地 方 使 用 ， 而 不 仅仅 是 出 现 了 和 藤 套 括号 的 地 方 : 


if ($text =~ m/\b( \w+ \( $LevelN \) )/x) { 
print "found function call: $1\n"; 


if (not $text =~ m/* SLevelN $/x) { 
print "mismatched parentheses! \n"; 


} 
第 343 页 还 有 一 个 关于 $LevelN 的 例子 。 


使 用 内 嵌 代 码 结 构 


Using the Embedded-Code Construct 

内 藤 代 码 结构 很 适合 调试 正则 表达 式 ， 以 及 积累 正在 进行 的 匹配 
的 信息 。 下 面 几 页 详细 给 出 了 一 组 例子 ， 最 终 得 到 模拟 POSIX 匹 配 的 
方法 。 讲 解 的 过 程 可 能 比 真 正 的 答案 更 有 意思 (除非 你 只 需要 POSIX 
的 匹配 语意 ) ， 因 为 在 讲解 中 我 们 会 收获 有 用 的 技巧 和 局 发。 

完 从 简单 的 正则 表达 式 调试 技巧 开始 。 

用 内 风 代 码 显示 匹配 进行 信息 


这 段 程序 : 
"abcdefgh" =~ m{ 
(?{ print "starting match at [$*|$’]\n" }) 
(?:dle|f£) 
}x; 
的 结果 是 : 


starting match at [|abcdefgh] 
starting match at [albcdefgh] 
starting match at [ab|cdefgh] 
starting match at [abc|defgh] 


正则 表达 式 的 开头 台 是 内 航 代 码 结构 ， 所 以 只 要 正则 表达 式 开 始 

新 一 轮 匹 配 ， 就 会 执行 : 
print "starting match at [$*|$’]\n" 

ERS sas’ (2300) GES) 表示 目标 字符 串 ， 用 中 标记 当前 
的 匹配 位 置 (在 这 里 就 是 匹配 开始 的 位 置 ) 。 从 结果 中 我 们 可 以 知 
道 ， 传 动 装置 (148) 进行 了 4 次 应 用 ， 才 匹配 成 功 。 

事实 上 ， 如 果 我 们 添加 : 

(?{ print "matched at [$'‘<$&>$’]\n" }) 

在 正则 表达 式 末 尾 ， 则 结果 是 : 

matched at [abc < d > efgh] 

现在 来 看 下 面 的 程序 ， 除 了 * 主 ”正则 表达 式 是 [def], 而 不 是 
l (2: delf) ,之 外 ， 其 他 部 分 与 开头 的 例子 是 一 样 的 : 


"abcdefgh" =~ m{ 
(?{ print "starting match at [$*|$’]\n" }) 
[def] 
} x; 
从 理论 上 说 ， 结 有 果 应 该 是 一 样 的 ， 实 际 情况 却 是 : 
starting match at [abc|defgh] 
为 什么 呢 ? Perl 足够 聪明 ， 对 这 个 以 [def] 开头 的 正则 表达 式 进 
行 开 头 字 符 / 字 符 组 / 字 串 识别 优化 (247) ， 这 样 传动 装置 就 能 略 过 
那些 它 认为 必然 会 失败 的 尝试。 结果 是 名 略 了 其 他 所 有 尝试， 只 进行 
了 可 能 导致 匹配 的 尝试 ， 我 们 可 以 通过 内 髓 代码 结构 观察 到 这 种 现 
FR o 


panic: top env 


RAL ARG SR AEM AGRA, PREALRAE, Hea aR AROSE e: 
panic: top env 

很 可 能 是 因为 正则 表达 式 的 代码 部 分 存在 语法 错误 。Perl 不 能 识别 某 些 错误 的 语法 ， 

结果 就 是 这 条 信息 ， 解 决 的 办 法 就 是 修正 语法 错误 ， 


用 内 蕉 代码 显示 所 有 匹配 
Perl 使 用 的 是 传统 型 NFA 引 擎 ， 所 以 一 旦 找到 匹配 就 会 停 下 来 ， 即 
使 还 存在 其 他 的 匹配 也 是 如 此 。 如 有 果 巧 妙 地 使 用 内 磐 代码 ， 我 们 能 够 
让 Perl 显 示 所 有 的 匹配 。 我 们 仍然 以 177 页 的 ‘onself* 为 例 来 说 明 。 
"oneselfsufficient" =~ mt{ 
one (self) ?(selfsufficient) ? 
(?{print "matched at [$‘<S&>$’]\n" }) 
}x; 
结果 如 我 们 所 料 : 
matched at [ < oneself > sufficient] 
表示 ‘oneselfsufficient :已 经 被 正则 表达 式 匹 配 。 


重要 的 是 认识 到 ， 结 果 中 的 “matched” 的 部 分 并 不 是 所 有 “能 够 匹 
配 ” 的 文本 ， 只 是 到 目前 获得 的 匹配 。 在 这 个 例子 中 谈论 其 中 的 区 别 意 
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配 的 结果 就 古 如 此 。 

不 过 ， 在 内 杠 代码 结构 之 后 添加 ”(? ! ) | 的 情况 如 何 呢 ? 
(21) | 是 否定 型 顺序 环视 ， 它 必然 会 失败 。 如 果 它 在 内 嵌 代 码 执 
行 之 后 生效 (也 就 是 在 “matched” 信 息 打 印 之 后 ) ， 就 会 强迫 引擎 回 
滴 ， 查 找 新 的 匹配 。 每 次 输出 “matched” 信 息 之 后 ，' (? ! ) , 都 会 强 
迫 引 警 回 滴 ， 最 终 试 毅 所 有 的 可 能 。 

matched at [<oneself>sufficient] 


matched at [<oneselfsufficient>] 
matched at [<one>selfsufficient ] 


我 们 所 做 的 修改 确保 正则 表达 式 必 然 不 能 完整 匹配 ， 但 是 这 样 做 
却 能 让 引擎 报告 显示 所 有 可 能 的 匹配 。 如 果 不 使 用 ”(? ! ) ，，Perl 
只 会 返回 第 一 个 匹配 ， 使 用 ”(? ! ) ， 则 可 以 见 到 其 他 可 能 。 

了 解 了 这 一 点 之 后 ， 来 看 看 下 面 的 代码 : 

"123" =~ m{ 
\d+ 


(?{ print "matched at [$‘*<$&>$’]\n" }) 
(7%) 


}x 


matched at [ 
matched at [ ] 
matched at [<1>23] 

matched at [ 

matched at [ 
matched at [12<3>] 
前 三 行 是 我 们 能 够 想象 的 ， 但 如 果 不 仔细 动 动脑 筋 ， 可 能 没 法 理 
解 后 三 行 。' (? ! ) | 强迫 进行 的 回溯 对 应 第 二 行 和 第 三 行 。 在 开始 
位 置 的 笑 试 失败 之 后 ， 传 动 狼 置 会 局 动 驱 动 过 程 ， 从 第 二 个 字符 开始 
(第 4 章 对 此 有 详细 介绍 ) 。 第 四 行 和 第 五 行 对 应 第 二 轮 尝 试 ， 最 后 一 

行 对 应 第 三 轮 。 


所 以 ， 添 加 (? ! ) 之 后 确实 能 显示 出 所 有 可 能 的 匹配 ， 而 不 是 
从 某 个 特定 位 置 开 始 的 所 有 匹配 。 不 过 ， 有 时 候 只 需要 从 特定 位 置 开 
始 的 所 有 匹配 ， 下 面 我 们 将 会 看 到 。 

寻找 最 长 匹配 

如 果 我 们 不 希望 找到 所 有 匹配 ， 而 是 希望 找到 并 保存 最 长 的 匹 
配 ， 应 该 如 何 做 呢 ? 我 们 可 以 用 一 个 变量 来 保存 “到 目前 为 止 ?最 长 的 
匹配 ， 比 较 每 一 个 “当前 匹配 ”和 它 。 下 面 是 ‘onself? 的 例子 : 


$longest match = undef; # 用 于 记录 最 长 的 匹配 
"oneselfsufficient" =~ mi{ 

one (self)? (selfsufficient)? 

(?{ 


# 比较 当前 匹配 ($&) 与 之 前 记录 的 最 长 匹配 
if (not defined($longest_match) 

or 

length($&) > length(Slongest_match) ) 
{ 

Slongest match = $&; 


}) 
(2?!) # 保证 匹配 失败 ， 通 过 回溯 继续 寻找 其 他 匹配 


} x; 


# 如 果 有 结果 ， 就 输出 
if (defined($longest match)) { 

print "longest match=[$longest_ match] \n"; 
} else { 

print "no match\n"; 


} 

ZINA EE, 2458 ‘longest match=[oneselfsufficient]’ ° 1X —EXW fk 
代码 很 长 ， 不 过 将 来 我 们 可 能 会 使 用 ， 所 以 我 们 把 它 和 21) Bt 
装 起 来 ， 作 为 单独 的 regex 对 象 : 


my SRecordPossibleMatch = qr{ 
(?{ 
# HOR BAY MA (S&) 与 之 前 记录 的 最 长 匹配 
if (not defined(S$longest_match) 
or 
length ($&) > length ($longest_match) ) 
{ 
Slongest_match = $&; 
} 
}) 
(2!) # 保证 匹配 失败 ， 通 过 回溯 继续 寻找 其 他 匹配 
} x; 


下 面 这 个 简单 例子 会 找到 最 长 的 匹配 "9938”: 


Slongest match = undef; # 记录 最 长 的 匹配 
"800-998-9938" =~ m{ \d+ $RecordPossibleMatch }x; 


# 输出 到 目前 为 止 的 累积 结果 
if (defined(slongest match)) { 

print "longest match=[$longest match] \n"; 
} else { 

print "no match\n"; 


} 

寻找 最 左 最 长 的 匹配 

我 们 已 经 能 找到 最 长 的 全 局 匹配 ， 现 在 需要 找到 出 现在 最 前 边 的 
最 长 匹配 。POSIX NFA 就 是 这 样 做 的 (177) 。 所 以 ， 如 果 找 到 一 个 
匹配 ， 束 要 禁止 传动 装置 的 驱动 过 程 。 这 样 ， 一 旦 我 们 找到 菜 个 匹 
配 ， 正 常 的 回溯 会 起 作用 ， 在 同一 位 置 寻找 其 他 可 能 的 匹配 (同时 需 
要 保存 最 长 的 匹配 ) ， 但 是 禁用 张 动 过 程 保证 不 会 从 其 他 位 置 寻 找 匹 
配 。 

Perl 不 容许 我 们 直接 操作 传动 装置 ， 所 以 我 们 不 能 直接 禁用 驱动 过 
程 ， 但 如 果 $longest_match 已 经 定义 ， 我 们 能 够 达到 实现 禁用 驱动 过 程 
的 效果 。 测 试 定义 的 代码 是 ' (? {defined$longest_match}) ，， 但 这 还 
不 够 ， 因 为 它 只 测试 变量 是 否定 义 。 重 要 的 是 根据 测试 结果 进行 判 

EREHE FEA ARARE 


为 了 让 正则 引擎 根据 测试 结果 改变 行为 ， 我 们 把 测试 代码 作为 
| (? ifthenlelse) ， 中 的 if 部 分 (140) 。 如 果 我 们 希望 测试 结果 为 真 
时 正则 表达 式 停 下 来 ， 就 把 必然 失败 的 (? ! ) ， 作 为 then 部 分 。 
(这 里 不 需要 else 部 分 ， 所 以 没有 出 现 ) 。 下 面 是 封装 了 条 件 判断 的 
regex 对 象 : 


my $BailIfAnyMatch = qr /(?(?{defined $longet match}) (?!))/; 
pee S 


if 部 分 以 下 男 线 标注 ，then 部 分 以 粗 体 标注 。 下 面 是 它 的 应 用 实 
例 ， 其 中 结合 了 前 一 页 定义 的 $RecordPossibleMatch: 
" 800-998-9938 
=~m{$BaillfAnyMatch\d+$RecordPossibleMatch}x; 
ribs ‘800”， 它 符合 POSIX 标 准 一 一 “所 有 最 左 位 置 开始 的 匹配 中 最 
长 的 匹配 ”。 


在 内 嵌 代 码 结构 中 使 用 local 画 数 


Using localin an Embedded-Code Construct 

local 在 内 藤 代 码 结构 中 有 特殊 的 意义 。 理 解 它 需要 充分 掌握 动态 
作用 域 (5295) 的 概念 和 第 4 章 讲解 表达 式 主导 的 NFA 引 擎 工作 原理 时 
所 做 的 “面包 酒 比喻 ”(158) 。 下 面 这 段 专门 设计 (我 们 会 看 到 ， 它 
ARK) 的 程序 没有 太 多 复杂 的 东西 ， 但 有 助 于 理解 local 的 意义 。 它 
令 查 一 行文 本 是 否 只 包含 i'w+， 和 '\s+， ， 以 及 有 多 少 wt, 是 
\d+\b, : 


my SCount = 0; 


$text =~ m{ 
^ (?> \d+ (2?{$Count++}) Nb | \wt | \st )*S 
} x; 
如 果 用 它 来 匹配 字符 串 '123.abc.73.9271.xyz: ，$Count 的 值 是 3。 
不 过 ， 如 果 匹 配 字符 串 '123.abc.73xyz:'， 结 果 就 是 2， 虽 然 应 该 是 1。 问 
题 在 于 ，'73: 匹 配 之 后 ，$Count 的 值 会 发 生变 化 ， 因 为 后 面 的 \b | 无 


法 匹配 ， rd+ | 当时 匹配 的 内 容 需 要 通过 回溯 “交还 *， 内 嵌 结 构 的 代码 
却 不 能 恢复 到 “未 执行 "的 状态 。 

如 果 你 还 不 完全 了 解 固化 分 组 (? >...) | (139) MEHR 
生 的 回溯 也 没关系 ， 固 化 分 组 用 于 避免 无 休止 匹配 (269) ， 但 不 会 
影响 结构 内 部 的 回 湖 ， 只 会 影响 重新 进入 此 结构 的 回 湖 。 所 以 如 果 接 
下 来 的 nb， 不 能 匹配 ， rd+ , 的 “交还 "就 完全 没有 问题 。 

简单 的 解决 办 法 是 ， 在 $Count 增加 之 前 添加 rb ， ， 保 证 它 的 值 只 
有 在 不 进行 “交还 "操作 的 情况 下 才 会 变化 。 不 过 我 更 愿意 在 这 里 使 用 
local， 来 说 明 应 用 正则 表达 式 期 间 这 个 画 数 对 Penl 代 码 的 影响 。 来 看 这 
段 程序 
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our $Count = 0; 
Stext =~ m{ 
^ (?> \d+ (?{ local($Count) = $Count + 1 }) \b | \wt | \s+ )* $ 


bx; 

要 注意 的 第 一 点 是 ，$Count 从 my 变量 变 为 全 局 变量 (我 推荐 使 用 
use strict， 如 果 这 么 做 了 ， 就 必须 使 用 our 来 “声明 ”全 局 变量 ) 。 

另 一 点 要 注意 的 是 ，$Count 的 修改 已 经 本 地 化 了 。 关 键 在 于 : 对 
正则 表达 式 内 部 的 本 地 化 变量 来 说 ， 如 果 因 为 回溯 需要 “交还 ”local 的 
代码 ， 它 会 恢复 到 之 前 的 值 (新 设 定 的 值 会 被 放弃 ) 。 所 以 ， 即 使 
local ($Count) =$Count+1 在 \d+ | 匹配 73: 之 后 执行 ， 把 $Count 的 值 
从 1 改 为 2， 这 个 修改 也 只 会 是 调用 local 时 的 “本 地 化 到 (当前 正则 表达 
式 的 ) 成 功 路 径 >”。 如 果 “\b| 匹配 失败 ， 正 则 引擎 会 回溯 到 local 之 前 ， 
$Count 恢 复 到 1。 这 也 殉 是 正则 表达 式 结束 时 的 值 。 


Atk Perl 代码 的 插值 


因为 安全 方面 的 考虑 ，Perl 不 容许 用 内 嵌 代 码 结构 “(?1,…)) 1 或 动态 表达 式 结构 
"(22 (+ ))) REM AGA AR AGE AR BAG (不 过 它们 可 以 进行 regex atdi, RA 
第 334 页 的 SRecordPossibleMatch)， 也 惑 是 说 : 


mi (?{ print “starting\n" }) some regex’ }x; 
是 可 以 的 ， 但 
my $ShowStart = '(7{ print “starting\n" })'; 


mi $ShowStart some regex’ }x; 
不 行 。 之 所 以 要 施加 这 种 限制 ， 是 因为 把 用 户 的 输入 作为 正则 表达 式 的 一 部 分 是 长 期 
以 来 的 普遍 做 法 ， 引 入 这 些 结 构 会 容许 用 户 运行 任意 代码 ， 带 来 严重 的 安全 隐患 。 所 
以 ， 冉 认 情 况 下 不 容许 这 样 ， 
如 果 你 喜欢 这 样 插 值 ， 可 以 使 用 下 面 的 声明 (declaration) : 


use re ‘eval’; 


这 就 绕 开 了 限制 (ERLAR, hikdiT (pragma) use re 也 可 以 用 于 调试 ， 361) 


整理 用 于 插值 的 输入 数据 


娄 果 采用 了 上 面 的 做 法 ， 而 且 确 实 需要 使 用 用 户 输入 的 数据 持 值 ， 请 确保 其 中 不 包含 
Ay de Perl 代码 或 者 动态 正则 结构 ,我 们 可 以 用 正则 表达 式 \{\Vss*\?+[B{]i 来 校 验 。 如 
灶 输 入 数据 能 够 匹配 ， 把 它 用 在 正则 表达 式 里 就 是 不 安全 的 。 使 用 \s+i 是 因为 x 
修饰 竺 容许 开 括号 之 后 出 现 空白 字符 (我 更 愿意 相信 它们 不 应 该 出 现在 那里 ， 不 过 事 
实 却 与 此 相反 ) .加 号 约束 的 ?保证 两 种 结构 都 可 以 识别 。 最后， 也 念 P 是 为 了 匹配 
现在 已 经 废弃 的 :1?p{…1)1 结 构 ， 也 就 是 老 版 本 的 (231…])1， 

我 起 最 好 的 办 法 是 由 Perl 提供 某 个 修饰 符 , 控制 在 整个 正则 表达 式 或 某 个 子 表达 式 中 ， 


容许 还 是 禁止 使 用 内 内 代 码 ， 但 是 在 没有 实现 之 前 ， 我 们 必须 按照 上 面 介绍 的 办 法 手 
工 检查 。 


所 以 ， 为 了 保证 $Count 的 记 数 不 发 生 错 误 ， 必 须 使 用 local。 如果 
把 ' (2 {print " Final count is $Count.\n " }) | 放 在 正则 表达 式 的 末 
尾 ， 它 会 显示 正确 的 计数 值 。 因 为 我 们 和 希望 在 匹配 完成 之 后 使 用 
$Count， 台 必须 在 匹配 正式 结束 之 前 把 它 保存 到 一 个 非 本 地 化 的 变量 
中 。 因 为 匹配 完成 之 后 ， 所 有 在 匹配 过 程 中 本 地 化 的 变量 都 会 丢失 。 
Pa eT IF: 


my Count undef; 


^ (?> \d+ (?{ local($TmpCount) = $TmpCount + 1 }) \b | w+ | \s+ )+ $ 
(?{ $Count = $TmpCount }) # 最 后 将 SCount 存 入 非 本 地 变量 中 
if (defined $Count) 
p t “Count is £ in ) 
el A 
p t match\n' 
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中 本 地 化 变量 的 工作 机 制 。 我 们 会 在 第 344 页 的 “模拟 命名 捕获 ”中 见 到 
实际 的 应 用 。 
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如 果 my 变 量 在 正则 表达 式 之 外 声明 ， 那 么 在 正则 表达 式 之 中 的 内 
和 藤 代码 引用 ， 就 必须 非常 小 心 ，Perl 中 变量 绑 定 的 详细 规定 可 能 会 产生 
重大 的 影响 。 在 讲解 这 个 问题 之 前 ， 我 必须 指出 ， 如 有 果 正 则 表达 式 的 
内 骨 代 码 中 使 用 的 都 是 全 局 变量 就 没 有 这 种 问题 ， 完 全 可 以 跳 过 这 一 
节 。 上 忠告 ， 这 一 市 难度 不 小 。 

下 面 的 例子 说 明了 问题 : 


sub CheckOptimizer 
{ 
my $text = shift; # 第 一 个 杂 数 是 要 检索 的 实 本 
my $start = undef; # 记录 表达 式 第 一 次 应 用 的 位 置 
my $match = $text =~ m{ 
(?{ $start = $-[0] if not defined $start}) # 保存 第 一 次 应 用 的 位 置 
\d # 这 是 需要 测试 的 正则 表达 式 
|x; 
if (not defined $start) | 
print "The whole match was optimized away. \n"; 
if (Smatch) { 
# 这 种 情况 不 可 能 发 生 | 


print "Whoa, but it matched! How can this happen!?\n"; 


} elsif ($start == 0) { 

print "The match start was not optimized. \n"; 
} else { 

print "The optimizer started the match at character $start. \n" 
} 


程序 中 包含 3 个 my 变量 ， 但 是 只 有 $start 与 此 问题 有 关 (因为 其 他 
两 个 并 没有 在 内 藤 代 码 中 引用 ) 。 程 序 首先 把 $start 设 为 未 定义 的 值 ， 
然后 应 用 开头 元 素 为 内 航 代 码 的 匹配 ， 只 是 在 $start 未 设 定 时 ， 内 符 代 
码 结构 才 会 把 $start 设 置 到 党 试 开始 位 置 。“ 本 次 党 试 的 起 始 位 置 ? 取 和 目 
$-[0] (@- 的 第 1 个 元 素 呈 302) 。 

所 以 ， 如 采 调 用 : 

CheckOptimizer( " test 123 " ); 

RDE : 

The optimizer started the match at character 5. 

这 没有 问题 ， 但 如 果 我 们 再 运行 一 次 ， 结 果 束 成 了 : 

The whole match was optimized away. 
Whoa, but it matched! How can this happen!? 


即使 正则 表达 式 检查 的 文本 没有 变化 《而且 正则 表达 式 本 身 也 没 
有 变化 ， 结 果 却 不 一 样 了 ， 你 发 现 问题 了 吗 ? 问题 就 在 于 ， 在 第 二 
次 调用 中 编译 正则 表达 式 时 ， 内 藤 代 码 中 的 $start 取 的 是 第 一 次 运行 之 


后 设置 的 值 。 此 函数 的 其 他 部 分 使 用 的 $start 其 实 是 一 个 新 的 变量 一 一 
每 次 函数 调用 的 开始 ， 执 行 my 都 会 重新 设置 这 个 值 。 

问题 的 关键 就 在 于 ， 内 般 代 码 中 的 my 变量 “锁定 ”《〈 用 术语 来 说 惑 
是 : 绑 定 bound) 在 具体 的 my 变量 的 实例 中 ， 此 实例 在 正则 表达 式 编 
译 时 激活 。 (正则 表达 式 的 编译 详 见 348 页 ) 每 次 调用 
CheckOptimizer， 都 会 创造 一 个 新 的 $start 实 例 ， 但 是 用 户 很 难以 察觉 ， 
内 骸 代 码 中 的 $start 仍 然 指 癌 之 前 的 值 。 这 样 ， 函 数 其 他 部 分 使 用 的 
$start 实 例 并 没有 接收 到 正则 表达 式 中 传递 给 它 的 值 。 

这 种 类 型 的 实例 绑 定 称 为 “ 闭 包 (closure) ”, Programming Perl 和 
Object Oriented Perl 之 类 的 书 中 介绍 了 这 种 特性 的 价值 所 在 。 天 于 闭 
包 ，Perl 社 群 中 存在 争议 ， 比 如 本 例 中 闭 包 和 完 竟 是 不 是 一 种 “特性 *"， 整 
有 不 同 看 法 。 对 大 多 数 人 来 说 ， 这 很 难 理解 。 

解决 的 办 法 是 ， 不 要 在 正则 表达 式 内 部 引用 my 变量 ， 除 非 你 知道 
正则 文字 的 编译 与 my 实例 的 更 新 是 一 致 的 。 比 如 我 们 知道 ， 第 345 页 
SimpleConvert 子 程序 中 使 用 的 my 变量 $NestedStuffRegex 没有 这 个 问 
题 ， 因 为 $NestedStuffRegex 只 有 一 个 实例 。 这 里 的 my 不 在 函数 或 者 循 
环 之 中 ， 所 以 它 只 会 在 脚本 载 入 时 创建 一 次 ， 然 后 一 直 存 在 ， 直 到 程 
序 终止 。 
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办 法 也 没 坏 处 ， 所 以 接 下 来 我 会 给 出 这 种 办 法 。 

办 法 很 简单 : 记录 已 经 遇 到 的 未 配对 开 括 号 的 数量 ， 只 有 此 数量 
大 于 0 时 ， 才 容许 出 现 闭 括号 。 在 匹配 文本 的 过 程 中 ， 我 们 使 用 内 藤 
代码 来 计数 ， 不 过 在 这 之 前 必须 得 看 看 (目前 还 不 能 运行 的 ) ENX 
达 式 的 框架 。 


my SNestedGuts = qr{ 
(?> 


E 除 括号 之 外 的 字符 


az 
) 


}x; 

为 了 保证 效率 ， 我 们 使 用 了 固化 分 组 ， 因 为 如 果 $NestedGuts 用 于 
更 大 的 正则 表达 式 ， 就 可 能 导致 回 滴 ， 这 样 '，([...]+|...) 大 就 会 造 
成 无 休止 匹配 (226) 。 举 例 来 说 ， 如 果 我 们 将 其 作为 “mA 

($NestedGuts\) $/x, 的 一 部 分 ， 应 用 到 (this-is:missing-the-close’ 中 ， 
如 有 末 没 有 使 用 固化 分 组 ， 吏 得 在 记录 和 回溯 上 人 花费 漫长 的 时 间 。 

为 了 配合 计数 ， 我 们 需要 4 步 : 

0 计数 必须 从 0 开始 : 

(?{local $OpenParens=0}) 

e SEFI, MIEZ, RNA MESIAL © 

(?{$OpenParens++ }) 
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匹配 了 一 对 括号 。 如 果 等 于 0， 束 停止 匹配 (因为 闭 括 号 与 开 括 号 不 匹 
配 ) ， 所 以 用 C ! ) | 强迫 匹配 失败 。 

(?(?{$OpenParens}) (?{$OpenParens--})|(?!)) 

这 里 使 用 了 ”(? ifthenlelse) | 条件 判断 (140) , AARRE 
判断 记 数 器 ， 作 为 if 部 分 。z 一 旦 匹配 结束 就 检查 记 数 器 ， 确 保 它 等 于 
0， 否 则 说 明 仍 然 有 未 匹配 的 开 括 号 ， 因 此 匹配 失败 。 

(?(?{$OpenParens!=0})(?!)) 
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my $NestedGuts = qr{ 
(?{ local $OpenParens = 0 }) # 6 计算 未 结束 的 开 括 号 的 数目 
(2> # 固化 分 组 ， 提高 效率 
(2% 
# 除 括号 以 外 的 字符 
[“()] + 


# e 开 括号 
| \( (?{ $OpenParenst+ }) 
# 二 闭 括号 
\) (?(?{ $OpenParens != 0 }) (?{ $OpenParens-- }) (2°) ) 
) 
) 
(2(2{ $OpenParens != 0 })(?!)) # 关 如 果 还 有 开 括 号 ， 则 匹配 未 结束 


bX; 
这 段 程序 的 使 用 方法 与 第 330 页 的 $LevelN 完 全 相同 。 

为 了 分 离 正 则 表达 式 中 的 $OpenParens 和 程序 中 可 能 出 现 的 其 他 全 
局 变量 ， 这 里 使 用 了 local。 但 local 的 用 法 与 之 前 的 不 同 ， 这 里 不 需要 
避免 回调 ， 因 为 正则 表达 式 使 用 了 固化 分 组 ， 一 旦 某 个 多 选 分 文 能 够 
匹配 ， 职 不 会 变 为 “交还 ”。 这 样 ， 固 化 分 组 既 保 证 了 效率 ， 又 保证 了 
内 明 代 码 结构 附近 匹配 的 文本 不 会 在 回溯 中 交还 (了 这样 $OpenParens 就 
与 实际 匹配 的 开 括号 数目 一 致 ) 。 
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Overloading Regex Literals 

通过 重 载 ， 用 户 可 以 通过 自己 喜欢 的 方式 预先 处 理 正则 文学 中 的 
文字 部 分 。 下 面 儿 节 给 出 了 例子 。 

添加 单词 起 始 / 结 束 元 字符 

Per 没有 提供 作为 单词 起 始 /结束 元 字符 的 \<， 和 \> ，， 可 能 是 
因为 绝 大 多 数 情况 下 b 已 经 够 用 了 。 不 过 ， 如 果 我 们 希望 使 用 这 两 
个 元 字符 ， 我 们 可 以 通过 重 载 ， 将 表达 式 中 的 ^< 和 > :分别 奉 换 为 
(2 <!\w) (? =\w) , ff! (2? <=\w) (? ! iw) , ° 

先 创 建 一 个 函数 ，MungeRegexLiteral， 进 行 需 要 的 预 处理 : 


sub MungeRegexLiteral ($) 
{ 


my ($RegexLiteral) = @; # 参数 是 字符 事 

$RegexLiteral =~ s/\\</(?<!\\w) (2?=\\w)/g; # 模拟 单词 起 始 边界 \< 
$RegexLiteral =~ s/\\>/(?<=\\w) (?!\\w)/g; # 模拟 单词 结束 边界 \> 
return $RegexLiteral; # 返回 修改 后 的 字符 串 


如 果 给 此 函数 传递 字符 操 “...\<...”， 它 会 将 其 转化 为 ‘... (? <! 
\w) (? =\w) ...”。 记 住 ， 因 为 replacement 部 分 类 似 双 3 引 号 字符 串 ， 所 
DE EAA \ww’ aw’ ° 

为 了 让 它 能 够 自动 处 理 正 则 文字 的 每 个 文字 部 分 ， 我 们 将 其 存 入 
文件 MyRegexStuff.pm， 供 Perl 重 载 : 


package MyRegexStuff; # 起 个 特殊 的 名 字 

use strict; # 这 是 个 好 习惯 

use warnings; # 这 也 是 个 好 习惯 

use overload; + 启用 Perl 的 重 载 机 制 

# &A regex handler.... 

sub import { overload::constant qr => \&MungeRegexLiteral } 


sub MungeRegexLiteral ($) 
{ 


my ($RegexLiteral) = @ ; # 参数 是 字符 串 
$RegexLiteral =~ s/\\</(2?<!\\w) (2?=\\w)/g; # 模拟 单词 起 始 边 界 \< 
$RegexLiteral =~ s/\\>/(?<=\\w) (?1\\w)/g; # 模拟 单词 结束 边界 \> 


return $RegexLiteral; # 返回 修改 后 的 字符 串 
} 


l; # 标准 做 法 ，'use' 此 文件 肯定 会 返回 true 
将 MyRegexStuff.pm 放 在 Perl 的 库 路 径 (library path， 请 参考 Perl 文 


档 中 的 PERLLIB) 下 ， 所 有 需要 使 用 此 功能 的 Perl 脚本 都 可 调用 。 如 
果 只 是 为 了 测试 ， 可 以 将 其 放 在 测试 脚本 同一 目录 内 ， 这 样 调用 : 


use lib '.'; # 在 当前 目录 中 寻找 库 文 件 
use MyRegexStuff; # 现在 可 以 使 用 此 功能 了 


$text =~ s/\st\</ /q; # 将 单词 之 前 任意 数目 任意 形式 的 空白 字符 替换 为 单个 空格 
每 个 需要 这 样 处 理 正 则 文字 的 程序 文件 都 必须 使 用 
MyRegexStuff ， 但 是 MyRegexStuff.pm 只 需要 构建 一 次 (此 功能 在 
MyRegexStuff.pm 内 部 不 可 用 ， 因 为 它 没 有 use MyRegexStuff 一 一 我 们 
肯定 不 会 这 样 做 ) 
添加 占有 优先 量词 
我 们 继续 完善 MyRegexStuff.pm， 让 它 支 持 占 有 优先 量词 例如 
xt+, (7142) 。 占 有 优先 量词 的 作用 类 似 普 通 的 匹配 优先 量词 ， 只 
是 它们 永远 不 会 释放 (也 就 是 “交还 ”) 任何 已 经 匹配 的 内 容 。 用 固化 
分 组 来 模拟 的 话 ， 只 需要 去 掉 最 后 的 “+”， 把 量词 修饰 的 所 有 内 容 放 到 
固化 分 组 里 ， ‘regex * +, 就 成 了 (? >regex*) , (173) 
占有 优先 量词 限定 的 部 分 可 以 是 括号 内 的 表达 式 ， 也 可 以 是 \w， 
或 者 '\x{1234} | 之 类 的 元 序列 ， 或 是 普通 字符 。 要 处 理 所 有 情况 并 不 
容易 ， 所 以 为 简便 起 见 ， 我 们 只 关注 作用 于 括号 的 ? +、 淡 + 和 ++。 有 
了 330 页 的 $LevelN， 我 们 可 以 把 这 段 程序 : 
$RegexLiteral=~s/(\($LevelN\)[ * +?])\+/(? > $1)/gx; 
添加 到 MungeRegexLiteral 函 数 。 
现在 ， 它 成 为 overload package 的 一 部 分 ， 我 们 可 以 在 正则 文字 中 
使 用 占有 优先 量词 ， 例 如 第 198 页 的 这 个 例子 : 
$text =~ s/™(\\.1(*")) *4+"//3 # APMIS THF 
如 果 要 处 理 的 情况 不 只 是 括号 ， 束 要 复杂 很 多 ， 因 为 正则 表达 式 
中 的 变数 很 多 ， 下 面 是 一 种 尝试 : 


r 


SRegexLiteral =~ s{ 
( 
# 匹配 可 能 的 限定 对 象 
(?: \\[\\abCdDefnrsStwWX] + \n、\w 之 类 


Yves $ NCA 

\\x[\da-fA-F] {1,2} # \xFF 

\\x\{ [\da-fA-F] *\} # \x{1234} 

| \WIBPIN CECI +\} # \p{Letter} 

SENIL LEEN] # 字符 组 

\\\W # \* 

\( $LevelN \) # (+++) 

[*() *+2\\] # ”其 他 任何 字符 
) 
# ...a AEB... 
(Re Pere] | Neer (ety Nad) FNF ) 


) 
\+ # PERZEN ‘+’ 
}{ (2?>$1) }gx; 

这 个 表达 式 的 大 体形 式 和 之 前 一 样 : 使 用 占有 优先 量词 匹配 一 些 
AA, RHA, Be SASK! (? >...) ， 围 起 来 。 要 想 识 
别 Perl 正则 表达 式 的 复杂 语法 ， 这 样 还 很 不 够 。 匹 配 字符 组 的 部 分 或 
需 改 进 ， 因 为 它 并 不 能 识别 字符 组 内 部 的 转 义 。 更 糟糕 的 是 ， 这 个 表 
达 式 的 基本 思路 有 问题 ， 因 为 它 不 能 完整 识别 Perl 的 正则 表达 式 。 比 
如 ， 它 就 不 能 正确 处 理 ^ (blah) ++' 中 作为 普通 字符 的 开 括 号 ， 而 是 
认为 ++| 仅仅 限定 \) j e 

解决 这 个 问题 得 花 许 多 工夫 ， 或 许 得 想 办 法 从 前 往 后 仔细 遍历 整 
个 正则 表达 式 (类 似 第 132 页 的 补充 内 容 中 的 办 法 ) 。 我 本 来 希望 改善 
处 理 字 符 组 的 元 素 ， 但 是 最 后 觉得 没 必要 处 理 其 他 复杂 情况 ， 原 因 有 
两 个 。 第 一 个 是 ， 这 个 表达 式 能 应 付 大 部 分 正常 的 情况 ， 所 以 修正 处 
理 字符 组 的 元 素 就 能 满足 实用 要 求 了 。 更 重要 的 一 点 是 ， 目 前 Perd 的 
正则 表达 式 重 载 有 严重 问题 ， 结 果 它 的 用 途 大 打折 扣 ， 讨 论 见 下 一 
AF o 
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Problems with Regex-Literal Overloading 


正则 文字 重 载 的 功能 非常 有 用 ， 至 少 在 理论 上 是 如 此 ， 不 幸 的 是 
实际 情况 并 非 如 此 。 问 题 在 于 ， 它 只 对 正则 文字 中 的 文字 部 分 有 效 ， 
而 不 会 影响 插值 部 分 。 人 例如， 在 m/ ( $MyStuff) x +/ 中 
MungeRegexLiteral 函数 调用 了 两 次 ， 次 是 在 变量 插值 之 前 
(“ (”) ; 男 一 次 是 插值 之 后 (“) 类 +”) 。 ( 它 永 远 不 会 影响 
$MyStuff 的 值 ) 。 因 为 重 载 必 须 同 时 找到 两 个 部 分 ， 而 揪 入 的 值 又 是 
不 确定 的 ， 所 以 实际 上 重 载 不 会 生效 。 

对 之 前 添加 的 \< 和 \> 来 说 ， 这 不 是 个 问题 ， 因 为 变量 奉 换 不 太 可 
能 把 它们 切 段 。 但 是 因为 重 载 不 会 影响 插值 变量 ， 包 含 \< :或 ^> "的 
字符 串 或 regex 对 象 就 不 会 受 重 载 影响 。 上 一 节 已 经 提 到 ， 如 果 由 重 载 
来 处 理 正则 文字 ， 就 很 难 每 次 都 保证 完整 性 和 准确 性 。 即 使 是 与 \> 一 
样 简单 也 会 出 问题 ， 例 如 改 >，， 它 表示 反 斜 线 必 之 后 紧 跟 尖 括号 ‘>’。 

另 一 个 问题 是 ， 重 载 不 知道 正则 表达 式 所 使 用 的 修饰 符 。 表 达 式 
是 否 使 用 了 /x 是 很 重要 的 问题 ， 但 重 载 没 有 确切 的 办 法 知道 。 

最 后 还 必须 指出 ， 使 用 重 载 会 禁止 根据 Unicode 命 名 指定 字符 的 功 
能 ('\N{name}, 290) 。 


模拟 命名 捕获 


Mimicking Named Capture 

讲 完 了 重 载 的 不 便 之 后 ， 我 们 来 看 看 综合 了 许多 特殊 结构 的 复杂 
例子 。Perl 没 有 提供 命名 捕获 (138) 的 功能 ， 但 是 我 们 可 以 使 用 捕 
获 型 括号 和 $AN 变 量 (301) 来 模拟 ， 这 个 变量 引用 的 是 最 近 结 束 的 
捕获 型 括号 匹配 的 内 容 (现在 我 假扮 Perl 开 发 人 员 ， 使 用 $AN， 特 意 大 
Perl 增 加 命名 捕获 的 功能 ) 。 

来 看 个 简单 的 例子 : 


href\s*=\s* (SHttpUrl) (?{ $url = $^N })) 
a 


这 里 使 用 了 303 页 的 regex 对 象 $HttpUrl。 下 画 线 部 分 是 一 段 内 航 代 
码 ， 把 $HttpUrl 匹 配 的 内 容 保存 到 $un 中 。 在 这 里 用 $AN 取 代 $1 似 乎 有 
些 多 此 一 举 ， 甚 至 不 必要 使 用 内 磐 代码 ， 因 为 在 匹配 之 后 使 用 $1 更 加 
方便 。 但 是 如 琳 把 其 中 一 部 分 封 狂 到 regex 对 象 ， 然 后 多 次 使 用 : 


my $SaveUrl = qr{ 


(SHttpUr1) # PLAC HTTP URL... 
(2 Suri = “SN }) # .. .保存 到 $url 

} x; 

$text =~ m{ 


http \s*=\s* ($SaveUrl) 
| src \s*=\s* ($SaveUrl) 
}xi; 

无 论 $HttpUrl 是 怎么 匹配 的 ，$url 都 会 被 设置 为 URL。 在 这 个 简单 
应 用 中 可 以 使 用 其 他 办 法 (例如 $+ 变量 S301) ， 但 是 在 更 复杂 的 情况 
中 ，$SaveUrl 之 外 的 办 法 更 难 维护 ， 所 以 将 它 保存 到 命名 变量 中 方便 得 
多 o 

这 里 有 一 个 问题 ， 如 有 果 设 定 $url 的 结构 在 回潮 中 被 “交还 *"， 已 设 害 
的 值 却 不 会 “撤销 保存 (unwritten) ”。 所 以 要 在 初始 匹配 时 修改 本 地 化 
的 临时 变量 ， 只 有 在 整体 匹配 真正 确认 之 后 才 保存 “真正 ”的 变量 ， 就 
像 第 338 页 的 例子 一 样 。 

下 面 给 出 了 一 种 解决 办 法 。 从 用 户 的 角度 来 看 , 在 ”(? <Num> 
\d+) | 之 后 ，\d+| 匹配 的 数值 仍然 可 以 以 $AN{Num} 访 问 。 尽 管 未 来 
版 本 的 Penl 可 能 会 把 %AN 转 换 为 某 种 特殊 的 系统 变量 ， 现 在 仍然 不 是 特 
殊 的 ， 所 以 我 们 可 以 随意 使 用 。 

我 们 可 以 使 用 %NamedCapture 之 类 的 和 名字， 但 选择 %AN 是 有 理由 
有 的。 之 一 是 它 类 似 $AN。 男 一 个 理由 是 ， 如 果 写 明了 use strict， 它 不 需 
要 预 声 明 。 最 后 ， 我 希望 Perl 最 终 会 内 建 对 命名 捕获 的 文 持 ， 所 以 我 认 
为 %^N 是 个 好 办 法 。 如 果 果 真如 此 ，%A 人 N 束 能 够 和 正则 表达 式 的 其 他 
变量 (299) 一 样 ， 自 动 使 用 动态 作用 域 。 但 是 目前 ， 它 只 是 普通 的 
全 局 变量 ， 所 以 不 会 目 动 使 用 动态 作用 域 。 

当然 ， 即 便 是 这 个 程序 也 会 出 现 正则 文字 重 载 的 办 法 所 具有 的 问 
题 ， 例 如 不 能 处 理 插值 变量 。 


模拟 命名 捕获 


package MyRegexStuff; 

use strict; 

use warnings; 

use overload; 

sub import { overload::constant('qr' => \&MungeRegexLiteral) } 


my SNestedStuffRegex; # AAFELPRA, LAMA YD 
SNestedStuffRegex = gr{ 
(?> 
(?: # 非 括 号 非 转 义 的 字符 ... 
LAO ANJA 
# HALFH... 
E Cee AAs Y 
# 正 划 表达 式 注释 。。。 


| \( (??{ SNestedStuffRegex }) \) 
)* 
) 
}x> 
sub SimpleConvert($); # #2, LMA a 
sub SimpleConvert ($) 
{ 
my $re = shift; # 要 处 理 的 表达 式 
Sre =~ st 
\¢\2 # mepo 
< ( (?>\wt) ) > # <SL > $1 是 标识 符 
( SNestedStuffRegex ) # $2 -可 能 出 现 的 武 套 结 构 
\) 2 avy ya 
}{ 
my $id = $1; 
my Squts = SimpleConvert ($2); 
把 


(?<id>guts) 
改 为 
(2: (guts) # &guts 
(?{ 
local(S°N{Sid}]) = Sguts # R wT 中 的 本 地 化 元 素 
p) 


) 
"(2:2 ($guts) (?{ local (\$*T{'Sid"}) = \S*N }))" 
)xeog; 
return $re; # 返回 处 理 结果 
} 


sub MungeRegexLiteral ($) 
{ 
my ($RegexLiteral) = @ ; E MRAFHS 
# print "BEFORE: $RegexLiteral\n"; # 调试 时 取消 注释 
my $new = SimpleConvert ($RegexLiteral) ; 
if (Snew ne S$RegexLiteral) 


my $before = q/(?{ local(%*T) = () })/; # 本 地 化 临时 hash 变量 
my $after = q/(?{ %^N = $^T })/; # 把 它们 拷贝 到 "真正 的 "hash 变量 
$RegexLiteral = "$before (?:$new)$after"; 


} 
# print "AFTER: $RegexLiteral\n"; # 调试 时 取消 注释 
return $RegexLiteral; 


} 
1; 


效率 


Perl Efficiency Issues 

在 大 多 数 情 况 下 ，Penl 中 正则 表达 式 的 效率 问题 与 任何 使 用 传统 
NFA 的 工具 一 样 。 第 6 章 介 绍 的 技巧 一 一 内 部 优化 、 消 除 循环 ， 以 及 “ 开 
动 你 的 大 脑 ”， 都 适用 于 Perl 。 

当然 ，Penl 也 有 专属 于 自己 的 问题 ， 这 一 蔬 我 们 残 来 看 看 : 

e 办 法 不 止 一 种 Pen 就 像 一 个 工具 箱 ， 同 一 种 问题 可 以 用 许多 办 法 
来 解决 。 理 解 了 Pen 的 思维 方式 ， 丈 会 明日 哪些 问题 是 箱子， 但 是 选择 
合适 的 锤子 还 需要 花 很 多 工夫 来 编写 高 效 而 易于 理解 的 程序 。 有 时 
候 ， 效 率 和 易于 理解 似乎 是 不 相 容 的 ， 不 过 一 旦 理解 深入 了 ， 葡 能 做 
出 更 好 的 选择 。 

e。 表 达 式 编译 、qr/.../、/o 修饰 符 和 效率 正则 运算 符 的 编译 和 插 
值 ， 做 得 好 的 话 能 节省 大 量 的 时 间 。/o 修饰 符 还 没有 详细 讲解 ， 它 配 
A regex WHR (qr/.../) ， 能 够 调控 耗费 时 间 的 重 编译 过 程 。 

e$& 的 负面 影响 伴随 效应 设 定 的 变量 $*、$& 和 $'， 也 许 很 方便 ， 
但 存在 不 易 发 现 的 效率 陷阱 ， 哪 介 只 出 现 了 一 次 ， 也 可 能 带 来 麻烦 。 
所 以 并 不 是 非得 使 用 它们 只 要 脚本 中 出 现 了 任意 一 个 变量 ， 负 面 
影响 就 不 可 人 避免。 

eStudy 函数 近年 来 ，Perl 提供 了 study (...) 画 数 。 按 照 预期 ， 它 
能 提高 正则 表达 式 的 速度 ， 但 是 似乎 没有 人 真正 知道 它 是 否 能 提高 速 
度 ， 以 及 背后 的 原因 。 

e 性 能 测试 性 能 测试 的 规矩 就 是 ， 越 快 的 程序 终止 得 越 早 (你 可 以 
引用 我 的 话 ) 。 无 论 小 型 函数 、 大 型 函数 ， 还 是 处 理 真 实数 据 的 整个 
程序 ， 性 能 测试 都 是 判断 速度 的 最 终 标准 。 尺 管 性 能 测试 有 各 种 各 样 
的 办 法 ，Perl 中 的 性 能 测试 却 是 简单 而 轻松 鸭 。 我 会 给 出 我 用 的 办 法 ， 
这 个 办 法 在 写作 本 书 时 做 过 数 百 次 性 能 测试 。 

e 正 则 表达 式 调试 Pearl 的 正则 表达 式 调试 标识 位 (debug flag) 可 以 
告诉 我 们 ， 正 则 引 敬 和 传动 装置 对 正则 表达 式 进行 了 哪些 优化 。 下 面 
会 讲解 如 何 查 看 这 些 信 息 ， 以 及 Pen 包 舍 了 哪些 秘密 。 


办 法 不 只 一 种 


"There's More Than One Way to Do It" 

通常 ， 一 个 问题 总 是 有 许多 种 解法 ， 所 以 在 权衡 效率 和 可 读 性 
时 ， 应 该 做 的 束 是 了 解 所 有 的 办 法 。 来 看 个 简单 的 问题 ， 修 改 一 个 卫 
地 址 ， 例 如 ‘18.181.0.24? ， 傈 证 每 一 段 都 包含 三 位 数 
字 : ‘018.181.000.024’。 简 单 的 办 法 是 : 

$ip=sprintf( " %03d.%03d.%03d.%03d " ,split(\./,$ip)); 

这 办 法 当然 没 错 ， 但 显然 还 有 其 他 的 解决 办 法 。 表 7-6 列 出 了 好 几 
种 办 法 ， 比 较 了 它们 的 效率 (按照 效率 排序 ， 最 上 面 的 效率 最 高 )。 
这 个 例子 的 目的 很 简单 ， 本 身 也 没有 太 多 价值 ， 但 是 它 能 代表 人 簿 单 的 
文本 处 理 任 务 ， 所 以 我 鼓励 你 花 一 点 时 间 理 解 各 种 办 法 。 可 能 有 些 技 
巧 你 没 见 过 。 

如 果 输 入 格式 正确 的 全 ， 每 个 办 法 都 能 到 正确 的 结果 ， 但 是 如 果 
输入 别 的 数据 则 可 能 会 出 错 。 如 果 数 据 是 不 规范 的 ， 可 能 就 需要 多 人 花 
点 心思 。 除 此 之 外 ， 实 际 差别 在 于 效率 和 可 读 性 。 就 可 读 性 而 言 ， 坟 1 
和 #13 似 乎 是 最 好 理解 的 (尽管 效率 上 存在 巨大 的 差异 ) 。 同 样 易于 
理解 的 是 区 3 和 共 4 (类 似 妇 1) ， 以 及 #8 (类 似 女 13) 。 其 他 解法 都 
太 过 复杂 了 ° 

那么 效率 呢 ? 为 什么 不 同 的 解法 有 不 同 的 效率 ? 原因 在 于 NFA 的 
工作 原理 (第 4 章 ) ，Perl 的 各 种 正则 优化 措施 〈 第 6 章 ) ， 以 及 其 他 
Perl 结构 的 处 理 速 度 (例如 sprintf， 以 及 substitution 运 算 符 的 机 制 ) 。 
substitution 运 算 符 的 /e 修 师 符 ， 有 时 候 虽 然 不 可 或 缺 ， 但 效率 低 的 解法 
似乎 都 使 用 了 它 。 

比较 区 3 和 世 4， 共 8 和 世 14 很 有 意义 。 这 两 对 正则 表达 式 的 区 别 只 
是 在 于 括号 一 -没有 括号 的 表达 式 要 比 有 括号 的 稍 快 一 点 。 世 8 使 用 $& 
来 避免 括号 带 来 的 高 昂 代价 ， 性 能 测试 却 无 法 体现 这 一 点 (355) ° 


表达 式 编 译 、/o 修 饰 符 、qr/.../ 和 效率 


Regex Compilation,the/o Modifier,qr/.../,and Efficiency 


Per 中 与 表达 式 效 率 相 关 的 另 一 个 重点 是 ， 程 序 遇 到 正则 运算 符 之 
后 ， 在 实际 应 用 正则 表达 式 前 ，Perl 必 须 在 幕后 进行 预 处 理工 作 。 真 正 
的 准备 工作 依赖 于 正则 运算 元 的 类 型 。 在 大 多 数 情 况 下 ， 正 则 运算 元 
是 正则 文字 ， 例 如 my/.../、s/.../.../ 或 qv.../。 Perl 必须 对 它们 进行 幕后 处 
理 ， 而 处 理 需 要 的 时 间 ， 如 果 可 能 应 该 尽力 避免 。 首 先 ， 让 我 们 来 看 
要 做 的 事情 ， 然 后 讲解 如 何 避 免 。 

表 7-6， 填 补 Ip 地 址 的 若干 解法 


1.3X 


ATAT $ip = sprintf ("%03d, 


substr ($ip, 
substr ($ip, 
sübstr ($ip, 
substr (Sip, 
substr ($ip, 
substr ($ip, 
substr ($ip, 


"9! 
"gt 
‘9! 
9! 
8, 0) = ‘0° 
8, 0) = '0' 


if 
if 
if 
if 
if 
if 


substr (Sip, 1, 
substr ($ip, 2, 
substr ($ip, 5, 
substr ($ip, 6, 
substr ($ip, 9, 
substr (Sip, 10, 


#03d.%03d.%03d", split(m/\./, $ip)); 


eq 
eq 
eq 
eq 
eq 
eq 
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15; 


in in 
pa- = 
Me) "5 
a ti 


a 

p- 
e 
i 


Sip =~ 


34X | $ip = 


$ip a~ 
4X iip ae 


| 


$ip 


wo 


> $ $e 
T 
>< 


ae 


$ip 
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Sip =~ 


sprintf ("803d. 803d. 03d. 403d", 


Sip =~ m/\d+/g); 


sprintf ("303d. 403d. 303d. 403d", Sip =~ m/(\d+)/g); 


sprintf ("$03d. 903d. %03d.%03d", 


Sip => m/*(\d+)\. (\d+)\. (\d+)\. (\d+)$/); 


8/\b(?=\d\b) /00/q; 
s/\b(?=\d\d\b) /0/a; 


s/\b(\d(\d?)\b)/$2 eq '' ? "00$1" 
s/\d+/sprintf("03d", $&)/eg; 


s/ (2: (2<=\.)1*%) (?=\d\b) /00/g3 
S/ (2: (?<=\.) 1%) (?=\d\d\b) /0/a; 
s/\b(\d\d?\b)/'0' x (3-length($1)) . $1/eg; 


8/\b(\d\b) /00$1/q; 
s/\b(\d\d\b) /0$1/q; 


s/\b(\d\d?\b) /sprintf ("803d", $1) /eg; 
$/\b(\d{1,2}\b) /sprintf ("903d", $1) /eg; 
s/(\d+)/sprintf£("803d", $1) /eg; 
8/\b(\d\d?(?!\d))/sprint£("%03d", $1) /ea; 


s/(?: (2<=\.) |^) (\d\d?(?!\d)) /sprintf ("$03d" 


: "0$1"/eq; 


» $1) /eg; 


预 处 理 正 则 表达 式 的 内 部 机 制 

预 处 理 正 则 运算 元 的 机 制 在 第 6 章 有 所 涉及 (241) ， 不 过 Perl 还 有 
目 己 的 处 理 。 

Perl 对 正则 运算 符 风 预 处 理 大 致 分 为 两 步 : 

1. 正则 文字 处 理 如 果 运 算 符 是 正则 文字 ， 就 按照 < 正则 文字 的 解析 
方式 ”(292) 中 的 描 

述 来 处 理 。 变 量 插值 陇 发 生 在 这 一 步 。 

2. 正则 编译 检查 正则 表达 式 ， 如 果 符 合 规则 ， 残 将 其 编译 为 适用 
于 正则 引擎 实际 应 用 的 内 

在 状态 〈 如 果 不 符合 规则 ， 则 报错 ) 。 

正则 表达 式 编译 完成 之 后 ， 束 能 够 实际 应 用 到 目标 字符 串 中 ， 参 
见 第 4 到 第 6 草 。 

并 不 是 每 使 用 一 次 正则 运算 符 ， 束 需要 进行 一 次 预 处 理 。 但 是 正 
则 文字 第 一 次 使 用 时 ， 必 须 进 行 预 处 理 ， 但 如 果 多 次 执行 同样 的 正则 
文字 〈 例 如 在 循环 中 ， 或 是 调用 多 次 的 函数 ) ，Perl 有 时 候 能 够 重用 之 
前 的 工作 。 下 一 节 说 明了 Perl 如 何 做 到 这 一 点 ， 以 及 程序 员 可 以 使 用 
的 提高 效率 的 技巧 。 

减少 正则 编译 的 步骤 

下 面 儿 市 中 我 们 会 见 到 Perl 避免 某 些 正则 文字 相关 预 处 理 的 两 种 
IIE: 无 条 件 缓 存 (unconditional caching) 和 按 需 重 编译 (on-demand 
recompilation) 。 

无 条 件 缓存 

如 果 正 则 文字 中 没有 插值 变量 ，Perl 就 知道 这 个 正则 表达 式 在 两 次 
应 用 之 间 不 会 变化 ， 所 以 第 一 次 编译 完成 之 后 ， 会 保存 编译 的 形式 
CRIT) ， 以 备 将 来 使 用 。 无 论 正 则 表达 式 会 执行 多 少 次 ， 只 需要 
检查 和 编译 一 次 。 本 书 中 的 大 多 数 正则 表达 式 都 没有 变量 插值 ， 因 此 
从 这 个 方面 来 说 效率 无 可 挑 别 。 

内 般 代 码 和 动态 正则 结构 中 的 变量 则 不 属于 此 类 ， 因 为 它们 不 会 
插值 到 正则 表达 式 中 ， 而 是 作为 正则 表达 式 执行 的 固定 代码 的 一 部 
分 。 有 时 候 ， 你 可 能 希望 每 次 执行 都 解释 内 磐 代 码 中 引用 的 my 变量 ， 
请 不 要 起 记 第 338 页 的 忠告 。 


有 一 点 要 说 清楚 ， 缓 存 的 持续 时 间 与 代码 的 执行 时 间 相同 ， 下 次 
运行 同样 代码 时 不 会 有 任何 的 缓存 。 


按 需 重 编译 

并 不 是 所 有 的 正则 运算 元 都 能 够 直接 缓存 ， 比 如 下 面 的 代码 : 
my $today = (qw<Sun Mon Tue Wed Thu Fri Sat>) [ (localtime) [6]]; 
# Stoday 保存 的 是 星期 数 ("Mon"， "Tue" 之 类 ) 


while (<LOGFILE>) { 

if (m/*$today:/i) { 

m/A$today: /中 的 正则 表达 式 需 要 插值 ， 虽 然 在 循环 中 使 用 ， 但 每 
轮 人 循 环 的 插值 结构 是 相同 的 。 所 以 一 再 重复 编译 同样 的 表达 式 的 效率 
很 低 ， 所 以 Perl 会 目 动 进行 简单 的 字符 串 检查 ， 比 较 本 次 和 上 次 插值 
的 结果 。 如果 相 同 ， 丈 使 用 上 次 的 缓存 。 如 末 不 同 ， 就 重新 编译 正则 
表达 式 。 所 以 ， 对 比 缓存 值 并 重新 揪 值 尽 可 能 避免 了 相对 更 耗 时 的 编 
Hs 

这 样 究竟 能 节省 多 少时 间 呢 ?非常 多 。 举 例 来 说 ， 我 测试 了 第 303 
页 的 $HttpUrl (使 用 扩 =A $HostnameRegex) 的 三 种 预 处 理 方式 。 设 计 
的 性 能 测试 能 准确 体现 预 处 理 的 开销 〈 使 用 插值 、 字 符 串 检查 、 编 
译 ， 以 及 其 他 后 台 任 务 ) ， 而 不 是 表达 式 应 用 的 整体 开销 ， 因 为 在 任 
何 情况 下 这 种 应 用 的 时 间 都 是 一 样 的 。 

结果 非常 有 意思 。 我 运行 了 没有 插值 的 版 本 (整个 正则 表达 式 都 
硬 编码 在 m/.../ 中 ) ， 用 它 作为 比较 的 基础 。 如 果 正 则 表达 式 每 轮 循 环 

\ 会 改变 ， 比 较 并 插值 大 概 需要 25 倍 的 时 间 。 完 整 的 预 处 理 〈 每 轮 循 
环 都 要 重新 编译 ) 大 概 需要 1 000 倍 的 时 间 ， 这 数字 真 惊人 ! 

应 用 到 实际 场合 就 会 发 现 ， 完 整 的 预 处 理 即 使 比 静 态 正 则 文字 预 
处 理 要 慢 1 000 倍 ， 在 我 的 机 器 上 也 只 需要 大 约 0.00026 秒 (测试 的 速度 
是 每 秒 3 846 次 ， 相 反 ， 静 态 正则 文字 预 处 理 的 速度 是 每 秒 370 万 次 ) 。 
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间 显 然 也 很 可 观 。 下 面 几 方 ， 我 们 会 考察 如 何在 更 多 情况 下 使 用 这 些 
技巧 。 

表示 “一 次 性 编译 ”的 /o 修 饰 符 


简单 地 说 ， 如 果 正 则 文字 运算 元 中 使 用 了 /o 修 饰 符 ， 它 就 会 只 会 检 
查 和 编译 一 次 ， 而 无 论 是 否 包含 插值 。 如 果 没 有 插值 ， 添 加 /o 不 会 有 任 
何 改变 ， 因 为 没有 插值 的 表达 式 总 是 会 自动 缓存 。 但 如 果 使 用 了 插 
值 ， 程 序 执行 第 一 次 遇 到 正则 文字 时 ， 会 进行 正常 的 完整 的 预 处 理 ， 
但 因为 /的 存在 ， 内 在 状态 会 存储 下 来 。 如 果 之 后 又 遇 到 这 个 正则 运算 
元 ， 就 会 直接 调用 缓存 。 

下 面 这 个 例子 之 前 也 出 现 过 ， 只 是 现在 添加 了 /o: 


my $today = (qw<Sun Mon Tue Wed Thu Fri Sat>) [(localtime) [6]]; 


while (<LOGFILE>) { 

if (m/*$today:/io) { 

这 个 表达 式 要 快 得 多 ， 因 为 从 第 二 次 开始 的 每 轮 循 环 中 ， 正 则 表 
达 式 都 忽略 了 $today。 不 需要 插值 ， 也 不 需要 预 处 理 和 重新 编译 正则 表 
达 式 ， 能 够 节省 大 量 的 时 间 ， 而 这 是 Perl 无 法 目 动 完成 的 ， 因 为 使 用 
了 变量 插值 ，$today 可 能 会 变化 ， 所 以 为 了 安全 ，Perl 必 须 每 次 都 检 
查 。 使 用 /0o 束 告诉 Perl， 在 第 一 次 预 处 理 和 编译 完成 之 后 “锁定 ”这 个 表 
达 式 。 因 为 我 们 知道 ， 择 值 变量 站 不 变 的 ， 即 使 变化 了 ， 也 不 布 望 使 
用 新 值 ， 所 以 这 样 做 完全 没 问题 。 

/o 的 潜在 < 陷阱 ” 

在 使 用 /o 时 ， 有 个 重要 的 “陷阱 "必须 要 注意 。 例 如 下 面 这 个 函数 : 
sub CheckLogfileForToday () 

{ 


my Stoday = (qw<Sun Mon Tue Wed Thu Fri Sat>) [(localtime) [6] ]; 


while (<LOGFILE>) { 
if (m/*Stoday:/io) 1 # 危险 一 一 这 里 要 小 心 


记 住 ，/o 表 示 正 则 运算 元 只 需要 编译 一 次 。 第 一 次 调用 
CheckLogfileForToday () 时 ， 代 表 当 天 日 期 的 正则 运算 元 就 锁定 在 其 
中 。 如 果 过 了 一 段 时 间 再 次 调用 这 个 函数 ， 即 使 $today 变 化 了 ， 也 不 会 


重新 检查 ; 在 程序 执行 过 程 中 ， 每 次 使 用 的 都 是 最 开始 锁定 在 其 中 的 
正则 表达 式 。 

这 个 问题 很 亚 重 ， 不 过 下 一 和 中 ，regex 对 象 提供 了 两 全 其 美的 解 
决 办 法 。 

用 regex 对 象 提高 效率 

迄今 为 止 ， 我 们 看 到 的 所 有 关于 预 处 理 的 讨论 都 适用 于 正则 文 
字 。 其 目的 在 于 人 花 尽 可 能 少 的 工夫 获得 编译 好 的 正则 表达 式 。 达 到 此 
目的 的 另 一 个 办 法 是 使 用 regex 对 象 ， 把 编译 好 的 正则 表达 式 封装 在 变 
量 内 部 供 程序 使 用 。 可 以 使 用 qv.../ 创 建 regex 对 象 (303) 。 

下 面 是 使 用 regex 对 象 的 例子 : 

sub CheckLogfileForToday () 


{ 


my Stoday = (qw<Sun Mon Tue Wed Thu Fri Sat>) [(localtime) [6]]; 
i P 1 J 


my $RegexObj = qr/^$today:/i; # 每 次 调用 编译 一 次 
while (<LOGFILE>) { 
if ($ =~ $RegexObj) | 
} 
} 

每 调用 一 次 函数 ， 束 会 创建 一 个 新 的 regex 对 象 ， 但 是 之 后 它 只 是 
直接 用 于 log 文 件 的 每 一 行 。 如 果 regex 对 象 用 做 运算 元 ， 它 不 会 进行 前 
面 介绍 的 任何 预 处 理 。 预 处 理 是 在 regex 对 象 创建 而 不 是 使 用 时 进行 
的 。 可 以 把 regex 对 象 想象 为 “自动 设 定 的 正则 缓存 "， 这 个 编译 好 的 表 
达 式 可 以 在 任何 地 方 使 用 。 

这 个 办 法 兼 具 了 两 方面 的 优点 : 它 效 率 高 ， 因 为 只 有 在 每 次 函数 
调用 〈 而 不 是 log 文 件 的 每 一 行 ) 时 才 会 编译 ， 但 是 ， 与 之 前 错误 使 
用 /o 的 例子 不 同 ， 即 使 多 次 调用 CheckLogfile-ForToday () ， 也 没有 问 
题 。 

需要 大 清楚 的 是 ， 这 个 例子 中 出 现 了 两 个 正则 运算 元 。 正 则 运算 
元 qr/.../ 并 不 是 一 个 regex 对 象 ， 但 能 从 接收 的 正则 文字 创建 regex 对 
象 。 然 后 这 个 对 象 用 作 循 环 中 match 运算 符 = 一 的 运算 元 。 


regex 对 象 配合 my/.../ 

这 段 程序 : 

if ($ =~$RegexObj) { 

也 可 以 这 样 写 : 

if (m/$RegexObj/) { 

此 时 已 经 不 是 普通 的 正则 文字 了 ， 尽 管 看 上 去 没有 区 别 。“ 正 则 文 
字 ” 的 内 容 就 是 regex 对 象 ， 它 与 直接 使 用 regex 对 象 一 样 。 这 种 做 法 的 
好 处 在 于 : mv/.../ 更 为 常见 ， 更 容易 使 用 。 也 不 用 明确 指定 目标 字符 串 
$_， 方 便 与 其 他 使 用 同样 默认 变量 的 运算 符 结 合 。 最 后 一 个 原因 是 ， 
这 样 我 们 能 够 对 regex 对 象 使 用 /g 。 

/0 配合 qr/.../ 

/0 修饰 符 可 以 配合 qr/.../， 但 在 这 里 你 肯定 不 希望 如 此 。 束 像 用 /o 
配合 其 他 任何 正则 运算 符 一 样 ，gr/.../o 在 第 一 次 使 用 正则 表达 式 时 就 
会 进行 锁定 ， 所 以 如 果 这 样 写 ， 无 论 $today 如 何 变 化 ， 每 次 调用 这 个 函 
数 $RegexObj 使 用 的 都 是 同样 的 regex 对 象 。 这 与 第 352 页 的 m/.../o 的 
问题 一 样 。 

依靠 默认 表达 式 提 高 效率 

正则 运算 符 的 默认 表达 式 (308) 可 以 提高 效率 ， 尽 管 使 用 regex 
对 象 可 能 更 划算 。 不 过 我 还 是 会 简要 介绍 一 番 。 例 如 : 


sub CheckLogfileForToday () 
{ 


my S$today = (qw<Sun Mon Tue Wed Thu Fri Sat>) [(localtime) [6] ]; 


# 直到 匹配 为 止 ， 设 置 默 认 表 达 式 


"Sun:" =~ m/*S$today:/i or 


"Mon:" =~ m/*S$today:/i or 
"Tue:" =~ m/*S$today:/i or 
"Wed:" =~ m/*$today:/i or 
"Thu:" =~ m/*Stoday:/i or 
"Fri:" =~ m/*$today:/1i or 
"Sats" =~ m/s A 


while (<LOGFILE>) { 
if (m//) { # 使 用 默认 的 表达 式 


使 用 默认 正则 表达 式 的 关键 在 于 ， 只 有 匹配 成 功 才 会 设置 默认 
值 ， 所 以 $today 设 置 之 后 还 有 长 长 的 代码 。 你 已 经 看 到 ， 这 相当 不 美 
观 ， 所 以 我 不 推荐 这 么 做 。 


理解 < 原文 ”副本 


Understanding the"Pre-Match"Copy 

在 匹配 和 替换 时 ，Perl 有 了 时 必须 动用 额外 的 空间 和 时 间 来 保存 目标 
字符 串 在 匹配 之 前 的 副本 。 我 们 会 看 到 ， 有 时 这 个 副本 会 用 于 文 持 重 
要 特性 ， 有 时 则 不 会 。 应 该 尽量 避免 不 会 用 到 的 副本 ， 提 高 效率 ， 尤 
其 是 在 目标 字符 串 很 长 ， 或 者 速度 非常 重要 的 情况 下 更 是 如 此 。 

下 一 地 我 们 会 讲解 何 时 以 及 为 什么 Perl 可 能 会 保存 目标 字符 串 的 
原文 副本 ， 什 么 时 候 用 到 副本 ， 以 及 在 效率 极端 重要 时 ， 如 何 取 背 这 
个 副本 来 提高 效率 。 

通过 原文 副本 支持 $1、$&、$'、$+.… 

对 于 match 或 者 substitution 操 作 的 目标 字符 串 ，Perl 会 生成 一 个 原文 
副本 ， 以 支持 $1、$& 之 类 匹配 后 的 变量 (299) 。 每 次 匹配 完成 之 


后 ，Perl 不 会 实际 生成 这 些 变量 ， 因 为 许多 变量 (还 有 可 能 是 所 有 ) 根 
本 不 会 被 程序 用 到 。 相 反 ，Perl 只 是 保存 原始 字符 串 的 副本 ， 记 住 各 种 
匹配 发 生 在 原来 文本 中 的 位 置 ， 在 使 用 $1 之 类 变量 时 通过 位 置 来 引 
用 。 这 种 办 法 不 错 ， 工 作 量 小 ， 因 为 多 数 情 况 下 都 不 会 用 到 某 些 其 至 
全 部 的 匹配 后 的 变量 。 这 种 “延迟 求 值 (lazy evaluation) ”能 避免 许多 
不 必要 的 工作 。 

尽管 延迟 创建 $1 之 类 的 变量 能 够 节省 工作 量 ， 但 保存 目标 字符 串 
的 副本 仍然 需要 成 本 。 而 这 是 必要 的 吗 ? 为 什么 不 能 直接 使 用 原来 的 
文本 ? 请 参考 : 

$Subject=~s/A(?:Re:\s * )+//; 

这 样 ，$& 正 确 地 引用 了 $Subject 中 删除 的 文本 ， 但 因为 它 已 经 从 
$Subject 中 删除 ， 在 后 面 用 到 $& 时 ，Perl 不 能 从 $Subject 中 引用 这 上 段 文 
本 。 下 面 的 代码 情况 相同 : 

if ($Subject =~ m/*SPAM:(.+)/i) { 
SSubject = "-- spam subject removed --"; 


$SpamCount {$1}++; 
} 


引用 $1 时 ， 原 来 的 $Subject 已 经 删除 了 。 所 以 ，Perl 必 须 保存 原文 


副本 

原文 副本 并 非 时 时 必须 

在 实践 中 ， 原 文 副本 的 主要 “用 户 ” 是 $1、$2、$3 之 类 的 变量 。 但 
是 如 采 正 则 表达 式 不 包含 捕获 型 括号 呢 ? 那样 区 不 必 担 心 $1 之 类 了 ， 
所 以 完全 不 必 考 虑 如何 支持 它们 。 所 以 至 少 ， 不 包含 捕获 型 括号 的 正 
则 表达 式 可 以 不 必 保 存 拷贝 ? 答案 是 未 必 。 

不 宜 使 用 的 变量 :全 、$& 和 $ 

$'、$&、$' 这 三 个 变量 与 捕获 型 括号 无 关 。 它 们 分 别 对 应 到 人 匹配 
文本 之 前 的 部 分 ， 匹 配 文本 和 匹配 之 后 的 部 分 ， 其 实 可 以 应 用 于 每 一 
次 match 和 substitution。Perl 不 能 预先 知道 某 个 匹配 中 是 否 会 用 到 这 些 变 
量 ， 所 以 每 次 都 必须 保存 原文 副本 。 

听 起 来 ， 似 乎 没有 办 法 省 略 副 本 ， 但 是 Perl 足够 聪明 ， 它 能 够 认 
识 到 ， 如 果 这 些 变量 不 会 出 现在 程序 中 ， 就 根本 没 必 要 (甚至 在 任何 


可 能 用 到 的 library 之 中 ) 保存 副本 来 提供 支持 。 所 以 ， 如 果 没 有 用 到 捕 
获 型 括号 ， 再 避免 出 现 、$& 和 就 能 省 略 原文 副本 一 一 这 是 很 棱 的 优 
化 ! 只 要 在 程序 中 的 任何 一 处 用 到 了 S > Se 宁 三 者 之 一 ， 整 个 优化 
即 告 失效 。 这 可 不 够 意思 ! 所 以 ， 我 认为 这 些 变量 是 “不 宜 使 用 
(naughty) ”的 。 

原文 副本 的 代价 有 多 高 

我 进行 了 简单 的 性 能 测试 ， 对 Peq 源 代码 的 130 000 行 C 程 序 中 的 每 
一 行 检 查 m/c/。 这 个 性 能 测试 仅仅 检测 哪 一 行 出 现 了 字符 ‘ce 。 测 试 的 
目的 是 衡量 原文 副本 的 影响 。 我 用 两 种 方法 进行 测试 : 一 种 肯定 没有 
用 到 原文 副本 ， 一 种 肯定 用 到 了 。 因 此 ， 唯 一 的 区 别 就 在 于 保存 副本 
的 开销 。 

保存 原文 副本 的 程序 所 用 的 时 间 要 长 40%。 这 代表 了 “平均 最 差 情 
况 ”， 这 样 说 是 因为 性 能 测试 并 没有 进行 什么 实质 性 的 操作 ， 否 则 二 者 
之 间 的 时 间 相 对 比例 会 减 小 (甚至 显得 微不足道 ) 。 

男 一 方面 ， 在 真正 的 最 坏 情 况 下 ， 额 外 副本 可 能 真 的 占据 非常 重 
要 的 比重 。 我 对 同样 的 数据 运行 同样 的 程序 ， 但 是 这 次 将 所 有 超过 
3.5MB 的 数据 都 放 在 一 行 中 ， 而 不 是 长 度 合适 的 130 000 行 。 这 样 就 能 
比较 单 次 匹配 的 相对 表现 。 不 使 用 原文 副本 的 匹配 几乎 是 立刻 就 得 到 
了 结果 ， 因 为 第 一 个 “字符 离开 头 不 远 ， 匹 配 之 后 程序 就 运行 结束 。 
而 使 用 原文 副本 的 程序 运行 原理 差不多 ， 只 是 它 会 首先 拷贝 整个 字符 
串 。 它 所 用 的 时 间 大 约 是 前 者 的 7 000 倍 。 因 此 我 们 知道 ， 避 免 使 用 某 
些 结构 能 够 提高 效率 。 

避免 使 用 原文 副本 

如 果 Perl 能 够 领会 程序 员 的 意图 ， 只 在 需要 的 情况 下 保存 副本 ， 
当然 很 好 。 但 请 记 住 ， 这 些 副本 并 不 是 “败笔 一 Perl 在 幕后 处 理 这 些 
繁琐 事务 是 我 们 选择 Perl ， 而 不 是 C 或 者 汇编 语言 的 原因 。 事 实 上 ， 
Perl 最 初 只 是 为 了 把 用 户 从 繁杂 的 机 制 中 解放 出 来 ， 这 样 他 们 只 需要 关 
注 问 题 的 解决 方案 就 好 了 。 

永远 不 要 使 用 不 宜 使 用 的 变量 。 同 样 ， 尽 可 能 避免 额外 的 工作 也 
是 不 错 的 。 首 先 想到 的 就 是 ， 永 远 不 要 在 代码 中 使 用 $"'、$& 和 $'。 通 
常 ，$& 很 容易 消除 一 一 把 正则 表达 式 包 围 在 一 个 捕获 型 括号 内 ， 然 后 


使 用 $1 即 可 。 举 例 来 说 ， 把 HTML tag 转换 为 小 写 时 ， 不 使 用 s/< 
\w+ > 和 人 L$&N\E/g， 而 使 用 s/ (<\w+>) AL$I\E/g ° 


如 果 祭 存 了 原始 目标 字符 串 ， 束 可 以 很 容易 地 模拟 $A s o DEC 
某 个 target 子 符 串 之 后 ， 可 以 按 下 面 的 规则 来 模拟 : 
变量 模拟 方式 


substr (target, 0, $-[0)) 


substr (target, $- [0], $+[0]-$-[0}) 


substr (target, $+ [0]) 


因为 @- 和 @+ (302) 保存 的 是 原始 目标 字符 串 中 的 位 置 ， 而 不 是 
确切 的 文本 ， 使 用 它们 不 需要 担心 效率 问题 。 

我 还 给 出 了 $& 的 模拟 。 相 对 使 用 捕获 型 括号 和 $1 的 办 法 ， 这 可 能 
是 一 个 更 好 的 办 法 ， 这 样 完 全 不 必 使 用 任何 捕获 型 括号 。 请 记 住 ， 避 
人 免 使 用 $& 之 类 变量 的 目的 束 在 于 ， 如 采 表 达 式 中 没有 出 现 捕获 型 括 
号 ， 要 避免 保存 原始 副本 。 如 果 修 改 程序 ， 去 掉 $&， 再 对 每 个 匹配 都 
增加 捕获 型 括号 ， 就 不 会 太 省 任何 时 间 。 

不 要 使 用 不 宜 使 用 的 模块 。 当 然 ， 避 人 免 、$&、$' 也 意味 着 避免 
使 用 调用 它们 的 模块 。Pen 的 核心 模块 中 ， 除 English 之 外 都 没有 使 用 它 
们 。 如 果 你 希望 使 用 English 模 块 ， 可 以 这 样 : 

use English'-no_match_vars'; 

这 样 就 没有 问题 了 。 如 果 你 从 CPAN 或 者 其 他 地 方 下 载 了 模块 ， 
你 可 能 需要 检查 一 番 ， 看 看 它们 是 否 使 用 了 这 些 变 量 。 请 参考 下 一 页 
的 补充 内 容 ， 里 面 有 些 诀 穿 ， 告 诉 你 如 何 判断 程序 是 否 用 到 了 这 些 变 
Be 


如 何 检查 代码 是 否 包含 $& 


判断 程序 是 否 使 用 了 不 宜 使 用 的 变量 全 、S$5 和 83， 并 不 是 件 容易 的 事情 ， 万 其 使 用 产 函 
数 时 更 是 如 此 ， 但 还 是 有 几 个 办 法 来 判断 。 最 简单 的 是 ， 如 果 你 的 二 进 制 程序 在 编译 
时 指定 了 -DDEBUGGING 和 参数， 就 可 以 他 用 -c 和 -Mre=debug 4% (7361), 观察 输出 
的 结尾 ,找到 包含 "Enabling $', $&64e$’ support’ 4. ‘Omitting $', $6 和 $'. support’ 
HM—A, RLH HHL, MATRA TREE, 


另 一 种 可 能 (但 不 太 现实 ) 的 情况 是 , HAA eval 语 由 中 使 用 了 这 些 变量 ， 如果 没 
有 实际 运行 ，Perl 不 知道 的 是 否 使 用 了 这 些 变量 。 解 决 办 法 之 一 就 是 安装 CPAN 
(http;/Avww.cpan.org) 的 Devel:SawAmpersand Package: 


END { 
require Devel: :SawAmpersand; 
if (Devel: :SawAmpersand;:sawampersand) 1 
print "Naughty variable was used!\n"; 
} 
] 


与 Devel: :SawAmpersand 一 起 的 还 有 Devel: :FindAmpersand, 这 个 package 能 够 告 
诉 用 户 有 问题 的 代码 的 位 置 。 不 幸 的 是 ， 对 最 新 版 本 的 Perl， 它 不 能 保证 完全 正确 ， 


这 两 个 package 的 安装 都 不 简单 ， 所 以 要 做 的 事 没准 很 多 (请 参考 http//regex.info/& 
找 可 能 的 更 新 )， 


用 查找 性 能 损失 的 办 法 找 出 问题 代码 的 办 法 也 值得 一 有 有 : 


use Time: :HiRes; 
sub CheckNaughtiness () 
{ 
my $text = 'x' x 10 000; # 创建 一 定 董 的 数据 


# 计算 纯 糙 环 的 开销 

my $start = Time::HiRes::time(); 

for (my $i = 0; $i < 5 000; $i++) { } 

my Soverhead = Time::HiRes::time() - $start; 


# 计算 同样 次 数 匹配 的 开销 

$start = Time::HiRes::time(); 

for (my $i = 0; $i < 5 000; $i++) { $text =~ m/*/ } 
my $delta = Time::HiRes::time() - $start; 


+ HER 
printf "It seems your code is $s (overhead=$.2f, delta=%.2f)\n", 
($delta > Soverhead*5) ? "naughty" : "clean", $overhead, $delta; 


Study HAY 


The Study Function 
与 优化 正则 表达 式 本 身 不 同 ，study (...) 优化 了 对 特定 字符 串 的 
某 些 检索 。 一 个 字符 串 在 study 之 后 ， 应 用 到 它 的 (一 个 或 多 个 ) 正则 
表达 式 可 以 从 缓存 的 分 析 数 据 中 受益 。 一 般 是 这 样 使 用 的 : 
while (<>) 
{ 
study ($R); # 匹配 之 前 Study KAM ARFHR PS 
if (m/regex 1/) {= } 
if (m/regex 2/) {=} 
if (m/regex 3/) { … } 
if (m/regex 4/) { } 
} 


study EHRE, (ARR I Ala RAMEE A ial o E 
不 会 影响 到 程序 的 任何 值 和 任何 结果 ， 唯 一 的 影响 就 是 ，Perl 会 使 用 更 
多 的 内 存 ， 总 的 执行 时 间 可 能 会 增加 ， 保 持 不 变 ， 或 者 减少 (这 是 我 
们 预期 的 ) 。 

study 一 个 字符 串 时 ，Perl 会 分 配 时 间 和 内 存 来 记录 字符 串 中 的 一 系 
列 位 置 (在 大 多 数 系 统 中 ， 需 要 的 内 存 是 字符 串 大 小 的 4 倍 ) 。 在 字符 
串 修 改 之 前 ， 针 对 此 字符 串 的 每 次 匹配 都 可 以 从 中 受益 。 对 字符 串 的 
任何 修改 都 会 导致 study 数 据 的 失效 ， 相 当 于 study 男 一 个 字符 串 。 

Study 能 给 目标 字符 串 提供 的 帮助 ， 很 大 程度 上 取决 于 用 来 匹配 的 
正则 表达 式 ， 以 及 Pen 能 够 使 用 的 优化 。 例 如 用 my/foo/ 检 索 文 本 ， 如 采 
使 用 了 study， 速 度 会 提升 很 多 〈 如 果 字 符 串 更 长 ， 甚 至 可 能 提高 10 
000 倍 ) 。 但 是 ， 如 果 使 用 了 Ai， 就 不 会 有 这 种 效果 ， 因 为 Mi 不 会 利用 
study 的 结果 (和 其 他 优化 ) 。 

不 应 该 使 用 study 的 情况 

e 如 果 只 使 用 让， 或 是 所 有 正则 文字 都 受 ”(? i) | 或 '(? 
i: ...) ) 作用 ， 就 不 应 该 对 字符 串 使 用 study， 因 为 它们 不 能 从 study 中 


KK 
ys 


e 如 果 目 标 字 符 串 很 得 ， 也 不 应 该 使 用 study。 因 为 此 时 ， 正 第 的 
固定 字符 串 识别 优化 (247) 已 经 足够 了 。 那 么 “ 短 ” 完 竟 如 何 界定 
WE? 字符 串 的 长 度 没有 确切 的 标准 ， 所 以 具体 来 说 ， 只 有 进行 性 能 测 
试 才能 判断 study 是 否 有 益 。 不 过 权衡 利弊 ， 我 通 第 不 使 用 study， 除 非 
字符 串 的 长 度 为 若干 KB ° 

如 末 你 只 和 希望 在 修改 之 前 ， 或 是 study 不 同 的 字符 串 之 前 ， 对 目标 
字符 串 进 行 少数 几 次 匹配 ， 请 不 要 使 用 study。 如 果 要 获得 真正 的 性 能 
提升 ， 必 须 是 多 次 匹配 节省 下 来 的 时 间 长 于 study 的 时 间 。 如 果 死 配 次 
数 较 少 ， 花 在 study 号 上 的 时 间 抵 不 上 节省 的 时 间 ， 得 不 偿 失 。 

只 对 期 望 使 用 包含 “独立 出 来 的 "文字 (255) 的 正则 表达 式 搜索 
的 字符 串 使 用 study。 如 采 不 知道 匹配 中 必须 出 现 的 字符 ，study WYA 
上 用 场 〈《 看 了 这 几 条 ， 也 许 你 会 认为 ，study 对 index 函 数 有 益 ， 但 事实 
并 非 如 此 ) 。 

什么 时 候 使 用 study 

最 适合 使 用 study 的 情况 就 是 ， 目 标 字 符 串 很 长 ， 在 修改 之 前 会 进 
行 许多 次 匹配 。 一 个 简单 的 例子 就 是 我 在 写作 本 书 时 所 用 的 过 滤 句 。 
我 用 目 己 的 标记 法 写 稿 ， 然 后 用 过 滤器 转换 为 SGML (再 转换 为 troff， 
再 转换 为 PostScript) 。 经 过 过 滤器 内 部 ， 一 整 章 变 为 一 个 大 字符 串 

(例如 ， 本 章 的 大 小 为 475KB) 。 在 退出 之 前 进行 多 项 检查 来 保证 不 
会 漏 过 错误 的 标记 。 这 些 检查 不 会 修改 字符 串 ， 它 们 通常 查找 固定 长 
度 的 字符 串 ， 所 以 它们 很 适合 于 study ° 


性 能 测试 


Benchmarking 

如 果 你 真 的 关心 效率 ， 最 好 的 办 法 束 是 进行 性 能 测试 。Per 目 市 的 
Benchmark 模 块 提供 了 详细 的 文档 ("perldoc Benchmark") 。 可 能 是 习 
惯 使 然 ， 我 更 喜欢 从 目 己 动手 写 性 能 测试 : 

use Time::HiRes'time’; 


REA TAA A tal EOR: 


my $start = time; 
my $delta = time - $start; 
printf "took %.1f seconds\n", $delta; 


性 能 测试 的 重要 问题 包括 ， 确 保 性 能 测试 进行 了 足够 多 的 工作 ， 
显示 的 时 间 真 正 有 意义 ， 尽 可 能 多 地 测试 希望 的 部 分 ， 尽 可 能 少 地 测 
试 不 希望 的 部 分 。 在 第 6 章 有 详细 的 讲解 (232) 。 找 到 正确 的 测试 
方法 可 能 得 伦 些 时 间 ， 但 是 结果 可 能 非 第 有 价值 ， 也 很 值得 。 


正则 表达 式 调试 信息 


Regex Debugging Information 

Perl 提 供 了 数量 众多 的 优化 措施 ， 期 望 能 够 尽 可 能 快 地 找到 匹配 ; 
第 6 章 的 “常见 优化 措施 ”( 呈 204) 介绍 了 基础 的 措施 ， 但 还 有 许多 其 他 
的 措施 。 大 多 数 优 化 只 能 应 用 于 专门 的 情况 ， 所 以 特定 正则 表达 式 只 
能 从 其 中 的 某 一 些 (甚至 是 没有 ) 获 益 。 

Perl 的 调试 模式 (debugging mode) 能 提供 优化 的 信息 。 在 正则 表 
达 式 第 一 次 编译 时 ，Perl 会 选择 这 个 正则 表达 式 所 使 用 的 优化 措施 ， 而 
调试 模式 会 显示 其 中 的 一 部 分 。 调 试 模 式 同样 可 以 告诉 我 们 引擎 是 如 
何 应 用 表达 式 的 。 仔 细 分 析 这 些 调试 信息 不 属于 本 书 的 范围 ， 但 我 会 
在 这 里 给 出 简要 介绍 。 

在 程序 中 可 以 通过 use re'debug'; 来 显示 调试 信息 ， 用 no 
re'debug'; 来 关闭 (上 文 曾 出 现 过 编译 指示 use re， 根 据 不 同 的 参数 ， 
启用 或 禁用 插值 变量 中 的 内 崩 代 码 咏 337) 。 

如 果 希 望 在 整个 脚本 中 启用 此 功能 ， 可 以 使 用 命令 行 参数 - 
Mre=debug。 这 很 适合 检查 单个 的 正则 表达 式 的 编译 方法 。 下 面 是 一 个 
例子 (只 保留 了 相关 的 行 ): 


Ò % perl -cw -Mre=debug -e 'm/*Subject: (.*)/' 
+ Compiling REx '*Subject: (.*)' 


st char j at 3 


i # 

Mi eo 全 
ue 
a) 
hJ 


12: END(0) 


. anchored "Subject: ' at 0 (checking anchored) anchored(BOL) minlen 


ht 


| Omitting $' $& $' support. 


在 90 处 从 shell 提 示 符 启动 perl， 使 用 命令 行 参数 -c (意思 是 检查 脚 
本 ， 而 不 是 确切 执行 它 ) ，-w (如 果 Perl 对 代码 存 有 疑问 ， 就 会 发 出 警 
fk) ， 以 及 -Mre=debug 启 用 调试 。-e 表 示 下 面 的 参数 "m/ASubject: © (. 
x) /是 一 段 Pen 代码， 需要 运行 或 者 检查 。 

=: 行 报告 表达 式 固 定 长 度 的 字符 串 中 “出 现 频率 最 低 ” 的 字符 (由 
Perl su © Perl 根据 这 一 点 进行 某 些 优化 《例如 预 查 所 需 字 符 / 子 串 
(F245) ° 

第 到 s 行 表示 Pen 编译 好 的 正则 表达 式 。 因 为 篇 幅 的 原因 ， 我 们 在 
这 里 不 会 伦 太 多 的 工夫 。 不 过 ， 即 使 是 随便 看 看 ， 第 = 行 也 不 难 理解 。 

第 .…. 行 对 应 大 多 数 行为 。 可 能 显示 的 信息 包括 : 

Anchored'string'at offset 

它 表 示 匹 配 必须 包含 某 个 字符 串 ， 此 字符 串 在 匹配 中 的 偏 移 值 为 
offset。 如 有 果 $ 紧 跟 在 'String' 之 后 ， 那 么 string 是 匹配 结尾 的 元 隶 。 

floating'string'at from..to 

Ete 7p VER ET EB USEF E E DE eh FM from 

(开始 ) 到 to (结束 ) 中 的 任意 位 置 。 如 果 $ 紧 跟 在 'String' 之 后 ，string 

是 匹配 结尾 元 素 。 

stclass'list' 

它 表 示 匹 配 可 能 的 开始 字符 。 

anchored(MBOL),anchored(BOL),anchored(SBOL) 


说 明 表 达 式 以 | 开头 。MBOL 说 明 使 用 了 种 修饰 符 ，BOL 和 
SBOL 表 示 没 有 使 用 (BOL 和 SBOL 的 区 别 在 现代 Perl 中 没有 意义 。 
SBOL 与 $ 火 变量 有 关 ， 而 此 变量 已 被 废弃 了 ) 。 


anchored(GPOS) 
说 明正 则 表达 式 以 VG, 开头 。 
implicit 


说 明 anchored (MBOL) 是 由 Perl 隐 式 添 加 的 ， 因 为 正则 表达 式 以 
lX | 开头。minlen length 

代表 匹配 成 功 的 最 小 长 度 。 

with eval 

说 明 表 达 式 包含 ”(? {...}) | 或 是 ' CP LD | 。 

第 | 行 与 正则 表达 式 无 关 ， 只 有 当 二 进 制 代码 中 的 编译 局 用 了 - 
DDEBUGGING 时 才 会 出 现 。 如 采 启 用 ， 在 载 入 整个 程序 之 后 ，Perl 会 
报告 是 否 启 用 了 对 $& 等 变量 的 支持 (356) 

运行 时 调试 信息 

我 们 知道 如 何 利用 内 赂 代码 获得 匹配 的 运行 信息 (331) ， 但 是 
Perl 的 正则 表达 式 调试 可 以 提供 更 多 的 信息 。 如 果 去 掉 表 示 “ 仪 编 
RR-A, Pel 会 提供 更 多 关于 匹配 运行 细节 的 信息 。 

出 现 “Match rejected by optimizer，” 表 示 某 种 优化 措施 让 传动 装置 
认识 到 ， 这 个 正则 表达 式 永 远 无 法 在 目标 字符 串 中 匹配 ， 所 以 会 忽略 
任何 和 尝试， 下面 是 一 个 例子 : 


% perl -w -Mre=debug -e '"this is a test" =~ m/*Subject:/;' 


Did not find anchored substr 'Subject:'? 
Match rejected by optimizer 
如 采 局 用 了 调试 功能 ， 用 户 可 以 看 到 所 有 用 到 的 正则 表达 式 的 调 
试 信 息 ， 而 不 只 限于 用 户 提供 的 正则 表达 式 。 例 如 : 
% perl -w -Mre=debug -e 'use warnings' 
... 大 量 调试 信息 ... 


它 没有 进行 任何 操作 ， 只 是 装载 了 waming 模 块 ， 但 是 因为 这 个 模 
块 包 含 正则 表达 式 ， 我 们 仍然 会 见 到 许多 调试 信息 。 

显示 调试 信息 的 其 他 办 法 

我 已 经 提 到 ， 可 以 使 用 “use re'debug'; ”或 -Mre=debug 来 启用 正则 
表达 式 的 调试 。 不 过 ， 如 果 把 所 有 的 debug 符 换 为 debugcolor， 而 终端 
又 支持 ANSI 转 义 控制 字符 (ANSI terminal control escape sequences) ， 
输出 的 信息 就 会 以 高 腕 标记 ， 更 容易 阅读 。 

男 一 个 办 法 是 ， 如 果 Perl 二 进 制 代码 在 编译 时 局 用 了 调试 文 持 ， 
可 以 使 用 命令 行 参数 -Dr 来 表示 -Mre=debug 。 


结语 


oe 


Final Comments 

我 确信 自己 已 经 陶醉 于 Perl 的 正则 表达 式 中 ， 本 章 的 开头 我 曾 提 
到 ， 这 是 有 充分 理由 的 。Perl 之 父 Larry Wall， 完 全 是 按照 常识 和 发 明 
的 动力 (Mother of Invention) 来 做 的 。 是 的 ，Perl 的 正则 表达 式 实现 
也 有 自己 的 问题 ,但 是 我 仍然 愿意 醉心 于 Perl 正 则 语言 丰富 的 功能 ， 
及 其 与 Perl 其 他 部 分 的 融合 。 

当然 ， 我 热情 而 不 冒 目 Perl 并 没有 提供 某 些 我 希望 的 特性 。 
本 书 第 1 版 渴望 的 某 些 特性 现在 已 经 添加 了 ， 我 会 继续 提出 要 求 ， 希 望 
Perl 会 继续 添加 。 相 对 于 其 他 实现 ，Perl 最 急需 提供 的 功能 是 命名 捕 
获 (138) 。 本 章 给 出 了 模拟 的 办 法 ， 但 还 存在 若干 限制 。 提 供 内 建 
文 持 是 最 好 的 解决 办 法 。 如 果 能 提供 字符 组 集合 运算 (125) 也 很 
好 ， 虽 然 目前 可 以 费 点 周折 用 顺序 环视 来 模拟 (126) 。 

然后 是 占有 优先 量词 (142) 。Perl 的 固化 分 组 提供 了 更 多 的 完 
整 功能 ， 但 是 在 某 些 情况 下 占有 优先 量词 的 解法 更 清楚 更 美观 。 所 
以 ， 两 种 办 法 我 都 喜欢 。 事 实 上 ， 还 有 两 个 我 喜欢 两 个 相关 结构 ， 目 
前 还 没有 任何 流派 提供 。 其 中 之 一 是 “cut”* 操 作 ， 或 者 叫 'W,, CSW 
刻 清除 当前 存在 的 所 有 保存 状态 OXE, xav 就 等 于 'x++ | 或 者 
i (? >x+) ， ) 。 另 一 个 结构 用 来 禁止 传动 装置 的 任何 进一步 的 操 
作 。 它 的 意思 是 “要 入 在 当前 路 人 径 找 到 一 个 匹配 ， 要 么 就 不 容许 任何 人 匹 
配 ， 没 有 其 他 可 能 。” 可 能 用 \V 来 表示 比较 好 。 

还 有 个 与 AV 有 关 的 想法 ， 我 认为 在 传动 装置 中 添加 通用 的 钧 子 
功能 (general hooks) 是 有 用 的 ， 这 样 第 335 页 的 程序 就 可 以 大 大 化 
简 。 

最 后 要 说 的 是 ， 我 在 第 337 页 曾经 提 到 ， 在 内 岁 代 码 插值 到 正则 
表达 式 时 ， 提 供 更 多 的 控制 是 非常 有 用 的 。 

Perl 当 然 不 是 理想 的 正则 表达 式 语 言 ， 但 它 很 接近 这 个 目标 ， 而 
且 一 直 在 进步 。 


第 8 章 Java 


Java 


自 2002 年 早期 发 布 的 Java 1.4.0 以 后 ，Java 就 内 建 了 正则 表达 式 包 ， 
java.utilregex， 它 的 API 毫 不 复杂 (可 以 称 得 上 人 简单) ， 提 供 了 强大 而 
有 创意 的 功能 。 对 Unicode 的 支持 很 棒 ， 文 档 很 清晰 ， 运 行 速度 也 很 
快 。 它 能 够 用 来 匹配 CharSequence 对 象 ， 所 以 使 用 起 来 非常 方便 。 

sjava.util.regex 一 经 发 布 就 给 人 留 下 了 深刻 印象 。 它 的 功能 、 速 度 
和 正确 性 都 达到 了 非常 高 的 水 平 ， 尤 其 是 对 初次 发 布 的 软件 来 说 ， 更 
是 如 此 。Java 1.4 的 最 终 版 本 是 1.4.2。 写 作 本 书 时 ，Java 1.5.0 (u 
Java 5.0) 已 经 发 布 ， 而 Java 1.6.0 〈 也 叫 Java 6.0) 已 经 发 布 了 第 二 个 
beta 版 本 。 本 书 针对 的 是 Java 1.5.0， 不 过 我 会 在 合适 的 时 候 提 到 它 与 
Java 1.4.2 或 Java 1.6.0 之 间 的 重要 差异 (这些 差异 的 总 结 在 本 章 末 尾 呈 
401) (#1) œ 

与 之 前 各 章 的 联系 

在 阅读 本 章 之 前 ， 我 必须 说 明 ， 这 一 章 不 会 重复 第 1 章 到 第 6 章 介 
绍 的 所 有 知识 。 有 些 只 关心 Java 的 读者 可 能 会 直接 从 这 章 开 始 阅读 ， 我 
希望 他 们 不 要 错过 前 言 和 开头 几 章 的 内 容 : 第 1、2、3 章 介 绍 了 正则 表 
达 式 的 基本 概念 、 特 性 和 技巧 ， 第 4、5、6 章 包 含 了 理解 正则 表达 式 的 
关键 知识 ， 它 们 可 以 直接 应 用 到 java.utiLregex 中 。 开 头 几 章 讲解 的 重要 
概念 包括 NFA 引 警 的 工作 原理 、 匹 配 优先 性 、 回 溯 和 效率 。 

表 8-1: 方法 名 索引 ( 按 字母 、 页 码 排序 ) 


appendReplacement matcher replaceFirst 
381 appendTail matcher (Matcher) reguireEnd 
372 compile matcher (Pattern) reset 

377 end 393 pattern(Matcher) |3905 split 

375 find 394 pattern (Pattern) start 

394 flags 5 quote text 

377 group QuoteReplacement toMatcheResult 

377 groupCount region 3 toString (Matcher) 
388 hasAnchoringBounds ; regionEnd toString (Pattern) 
387 hasTransparentBounds |38 regionStart useAnchoringBounds 
390 hitEnd 3 replaceAll 3 usePattern 
lookingAt 3 replaceAllRegion |3 useTransparentBounds 


这 张 表 格 供 简要 查询 ， 详 细 的 API 讲 解 从 第 371 页 开始 。 

在 这 里 我 还 是 要 强调 ， 尽 管 第 367 页 的 表格 查阅 起 来 很 方便 ， 第 3 
章 第 114 和 第 123 页 的 表格 也 是 如 此 ， 但 本 书 的 目的 不 是 作为 参考 手 
册 ， 而 是 “掌握 ?正则 表达 式 的 详细 教程 。 前 面 几 章 已 经 出 现 过 
java.util.regex 的 例子 (81> 95> 98> 217 > 235) ， 本 章 在 讲解 各 种 类 
及 其 实际 应 用 时 会 给 出 更 多 的 例子 。 不 过 ， 首 先 还 是 来 看 Java 文 持 的 正 
则 流派 ， 以 及 对 应 的 修饰 符 。 


Java 的 正则 流派 


Java's Regex Flavor 

java.util.regex 使 用 传统 型 NFA， 所 以 第 4、5、6 章 介绍 的 丰富 特性 
都 适用 于 它 。 下 页 的 表 8-2 总 结 了 它 的 元 字符 。 此 流派 的 某 些 方面 已 经 
发 生 了 变化 ， 原 因 是 各 种 匹配 模式 ， 人 匹配 模式 的 启用 通过 各 种 method 
和 factory 来 设 定 标志 位 ， 或 者 内 赂 在 表达 式 中 的 『 (? mods-mods) | 
和 ' (? mods-mods: ...) | 修饰 符 。 这 些 模式 在 第 368 页 的 表 8-3 中 有 
列 出 。 下 面 是 对 表 8-2 的 说 明 : 

D 只 有 在 字符 组 内 部 ，\b 才 代表 退 格 字 和 人 符 。 在 其 他 场合 ，\b 都 代表 
单词 分 界 符 。 

表 中 给 出 的 是 “ 纯 (raw) ” 反 斜 线 ， 但 是 用 作 Java 正 则 表达 式 的 字 
符 串 时 必须 使 用 双 反 和 斜 线 。 例 如 ， 表 中 的 mm 在 Java 的 字符 串 中 必须 
写作 “>”。 请 参考 “作为 正则 表达 式 的 字符 串 ”(\G101) 。 

汉 艺 艺 容 许 且 只 容许 出 现 两 位 十 六 进 制 数字 ， 所 以 \xFCber | 匹 
fic ‘iiber’ ° 


428-2: java.util.regex 的 正则 流派 


IIS (c) [Aa 1b) \e \E \n Ve \t \Ooctal \ xt Vutt \echar 
字符 组 及 相关 结构 

ml18 (c) Sith: pel me] (Tas he eH 125) 
#119 几乎 任何 字符 ;点 号 RA, Taie) 
#120 (c) Fie Arie’: \w \d \a \W \D \s 

#21 (c) Unicode Atif jk"; \p(Prop} \P{Prop) 
MERLOR EA BT 

370 H/F PEHE: * \A 

#370 FP RLH: $ \z \z 

#370 当前 匹配 的 起 起 位 置 ; \G 

7133 iak: \b \B 

#133 环视 结构 8，(3=…) (Phen) (ee) (PEt) 
ER ARAM EH 

135 HAMA. (omods-mods) bM: x ds miu 
人 13 AHEM. 【3modr-mot:…) 

F368 (c) ft, MESA (RAB MAR) © 

#113 (e) 文字 文本 模式 : AOE 

Spi BA 

137 | ARMIES GH) AL A2 

+137 REH: (Fr) 

139 Hitri: (7>) 

7139 多 选 结构 ; | 

下 ac i. * + 2 {n} {n,} {x,y} 

14] Date Ei). #2 +? 33 {nj? {n,}? {x,y}? 


14) 占有 优先 量词 : # ++ 2+ (n}+ {n,}+ {x;y} 


(c) —TAT FRA Qe LN 


Ute eA a AAA AES, GR, "\u00FCber 
Def ‘iber’, 20AC | ERE ° 


\Ooctal 要 求 开 头 为 0， 后 接 1 到 3 位 十 进 制 数字 。 

\cchar 是 区 分 大 小 写 的 ， 直 接 对 后 面 字符 的 十 进 制 编码 进行 异 或 
(xoring) 操作 。 与 我 见 过 的 任何 流派 都 不 一 样 ， 在 这 里 \cA 和 和 \ca 是 不 
同 的 。\cA 等 于 传统 意义 上 的 \x01，\ca 则 等 价 于 \x21， 匹 配 ! ， 

@\w、\d 和 和 \s (以 及 对 应 的 大 写 缩 略 法 ) 只 适用 于 ASCII 字 符 ， 而 
不 包括 其 他 的 字母 、 数 字 或 者 Unicode 空白 字符 。 也 就 是 说 ，\d 等 价 
于 [0-9]，\w 等 价 于 [0-9a-zA-Z]，\s 等 价 于 [tfNNx0B] (x0B 是 ASCII 中 
基本 不 用 的 VT 字符 ) 

要 覆盖 完整 的 Unicode 字 符 ， 可 以 使 用 Unicode 属 性 (121) : 用 
\p 代 } 表 示 \w，\p{Nd} 表 示 \d， 用 \p{Z} 表 示 \s 。 《把 小 写 的 p 替 换 为 大 写 
的 Pp， 就 可 以 对 应 WW、\D 和 |\S) 

@\p{...} 和 和 \P{...} 支 持 Unicode 属性 和 区 块 ， 以 及 某 些 额外 的 “Java 
属性 ”。 它 不 支持 Unicode 字 母 表 。 详 细 信 息 在 下 一 页 。 

@ 对 单词 分 界 符 元 字符 \b 和 \B 来 说 , “单词 字符 ”的 规定 不 同 于 \w 和 
\W。 单词 分 界 符 能 够 识别 Unicode 字 符 ， 而 WwW 和 \W 只 能 识别 ASCII 字 
符 。 

© 顺序 环视 结构 中 可 以 使 用 任意 正则 表达 式 ， 但 是 逆序 环视 中 的 
子 表达 式 只 能 匹配 长 度 

有 限 的 文本 。 也 就 是 说 ， ? ， 可 以 出 现在 逆序 环视 中 ,但 大， 
和 "+, 则 不 行 。 请 参考 第 3 章 133 页 开始 的 内 容 。 

© RKA EEH, A (E H Patten. COMMENTS (œ 
368) (请 不 要 忘记 在 多 

行文 本 字符 串 中 添加 换行 符 ， 如 第 401 页 的 例子 ) WW, H. ae 
注释 。 没 有 转 义 的 ASCII 字 空白 字符 会 被 忽略 。 注 意 : 这 一 点 与 大 多 数 
支持 此 模式 的 正则 引擎 不 同 ， 在 Java 中 字符 组 内 部 的 注释 和 空白 字符 

会 被 忽略 。 

O\Q... 下 一 直 是 被 支持 的 ， 但 在 Java 1.6 之 前 ， 字 符 组 内 部 的 此 种 

结构 是 不 可 靠 的 。 


表 8-3: java.util.regex 中 Match 和 Regex 的 方法 


Patern.UNIX_LINES at | LARA) HR (7370) 

Pattern. DOTALL s | 点 号 能 匹配 任何 字符 (71) 

Pattern. MULTILINE m | RN fo'S) HRMS (7370) 

naa ene ii (在 字符 组 内 部 也 有 效 ) 
Pattern.CASE_INSENSITIVE 对 ASCI 字符 进行 不 区 分 大 小 写 的 匹配 


Pattern.UNICODE CASE |u | 对 Unicode 字 符 进 行 不 区 分 大 小 写 的 匹 本 


Unicode “ 按 规 则 等 价 (canonical equivalence)” 
Pattern.CANNON EQ 匹配 模式 (不 同 编码 中 的 同样 字符 视 为 相等 
#108) 
Pattern. LITERAL | 将 regex 参数 作为 文字 文本 ,而 非 正 划 表达 式 


Java 对 \p{...} 和 \P{...} 的 支持 


Java Support for\p{ }and\p{ } 


Mp{...} A NPL...) 结构 支持 Unicode 的 属性 和 区 块 ， 也 支持 特 
殊 的 “Java” 字 符 属性 。 这 种 支持 针对 Unicode Version 4.0.0 (Java 1.4.2 
只 支持 Unicode Version 3.0.0) 

Unicode 属 性 

Unicode 属 性 是 通过 \p{Lu} 之 类 的 缩写 名 字 来 引用 的 (参加 122 页 
的 列表 ) 。 单 字母 属性 名 可 以 省 略 括 号 ，\pL 等 价 于 \p{L}。 而 
\p{Lowercase_Letter} 之 类 的 长 名 称 是 不 支持 的 。Java 1.5 及 之 前 的 版 本 
是 不 文 持 Pi 和 Pf 属 性 的 ， 因 此 ， 上 有 具有 这 种 属性 的 字符 不 能 用 \p{P} 来 匹 
配 (Java 1.6 支 持 ) 

“未 赋值 的 代码 点 * 属 性 \p{Cn} 匹 配 的 字符 ， 不 能 由 “其 他 字符 * 属 
性 \p{C} 来 匹配 。Java 不 文 持 组 合 属性 \p{L&}。 

Java 支 持 伪 属 性 \p{all} ， 它 等 价 于 ' (? S: .) ，， 但 不 支持 
\p{assigned} 和 \p{unassigned} 伪 属性 ， 不 过 我 们 可 以 用 \P{Cn} 和 \p{Cn} 
来 代替 。 

Unicode 区 块 

Unicode block 的 文 持 要 求 使 用 'm' 前 绥 。 请 翻 到 第 402 页 查阅 具体 
的 版 本 信息 ， 了 人 解 \p{...}, 和 '\P{...}, 中 能 够 出 现 的 区 块 名 称 。 

为 了 保持 癌 后 兼容 性 ，Java 1.5 中 有 两 个 Unicode 区 块 在 Unicode 
Version 3.0 和 4.0 之 间 发 生 了 变化 。 除 了 Unicode 4.0 提 供 的 Combining 
Diacritical Marks for Symbols 和 Greek and Coptic 之 外 ， 还 可 以 使 用 
本 不 属于 Unicode 4.0 的 名 称 Combining Marks for Symbols 和 Greek ° 

Java 1.4.2 有 个 涉及 Arabic Presentation Forms-B 和 Latin 
Extended-B 的 bug， 在 Java 1.5 中 已 经 修正 。 

特殊 的 Java 字 符 属 性 

从 Java 1.5.0 开始 \p{...} 和 \P{...} 结 构 能 够 支持 
java.lang.Character FRAM (non-deprecated) 的 isSomething 方 法 。 为 


T FETE FIA SUF EE, WRF TIE PAB ‘is’ AFR A ‘java’ , 
然后 使 用 \p{...}， A \P{...} | 。 例如， 由 java.lang.Characer. 
isJavaldentifierStart 匹配 的 字符 也 能 用 正则 表达 式 
'\p{javaJavaldentifierStart} 来 匹配 (请 参考 java.lang.Character 类 的 文 
档 ) 


Unicode 行 终结 符 


Unicode Line Terminators 
在 Unicode 之 前 的 传统 正则 流派 中 ， 点 号 、^、$ 和 \Z 会 对 换行 符 
(ASCII 中 的 LF 字符 ) 进行 特殊 处 理 。 在 Java 中 ， 大 多 数 Unicode 行 终 
结 符 (109) 也 会 这 样 特殊 处 理 。 
正常 情况 下 ，Java 会 把 下 面 的 这 些 字符 当 作 行 终结 符 : 


字符 代码 说 明 

U+000A ASCII 换行 符 (“newline”) 

U+000D ASCII 回 车 

U+000D U+000A ASCII 回 车 /换行 序列 

U+0085 Unicode NEXT LINE (Unicode 4& 47 4 ) 


U+2028 Unicode LINE SEPERATOR (Unicode 47485 4) 
U+2029 Unicode PARAGRAPH SEPARATOR (Unicode 4 4 fi 4) 


根据 匹配 模式 (368) 的 不 同 ， 点 号 、^、$ 和 \Z 会 对 这 些 符号 进 
行 特殊 处 理 : 


匹配 模式 受 影响 符号 | 说 明 


UNIX_LINE 恢复 到 传统 模式 ， 只 把 换行 竺 作为 一 行 的 终结 
MULTILINE 字符 事 中 的 行 终结 符 也 可 以 由 ^ 和 5 匹配 
DOTALL ie e] 行 终结 符 不 再 另行 处 理 ， 点 号 可 以 匹配 所 有 字符 


作为 行 终结 标志 的 双 字 符 CR/LF 值 得 一 提 。 默 认 情 况 (没有 使 用 
UNIX_LINES 时 ) 是 识别 完整 的 行 终结 符 ， 匹 配 文本 行 边界 的 元 字符 会 
把 CR/LF 视 为 不 可 分 隔 的 单位 ， 一 次 性 匹配 这 两 个 字符 。 

举例 来 说 ，$ 和 \zZ 通常 会 匹配 行 终结 符 之 前 的 位 置 。LF 是 行 终结 
符 ， 但 只 有 在 它 不 属于 CR/LF (也 就 是 说 ，LF 之 前 没有 CR) 的 情况 
下 ，$ 和 \Z 才 能 匹配 字符 串 来 尾 的 LE 之 前 的 位 置 。 

MUTILINE 模 式 中 的 $ 和 人 ^ 也 是 如 此 ， 在 这 种 模式 下 ， 只 有 在 CR 之 
后 没有 LE 的 情况 下 ，^ 才 能 匹配 CR 之 后 的 位 置 ， 只 有 在 LE 之 前 不 是 CR 


的 情况 下 ，$ 才 能 匹配 LF 之 前 的 位 置 。 

必须 说 清楚 的 是 ，DOTALL 对 CR/LF 的 处 理 没 有 影响 (DOTALL 只 
影响 点 号 ， 而 点 号 总 是 逐个 处 理 字符 的 ) ，UNIX_LINES 根 本 不 存在 此 
类 问题 ( 它 只 识别 CR， 所 有 其 他 行 终结 符 都 不 需要 特殊 处 理 ) 。 


4% FA java.util.regex 


Using java.util.regex 
通过 java.utilregex (EH EM ZesA SUSE A fal, DORR, — 
个 接口 和 一 个 unchecked exception 组 成 。 
java.util.regex.Pattern 
java.util.regex.Matcher 


java.util.regex.MatchResult 
java.util.regex.PatternSyntaxException 


就 我 个 人 来 说 ， 更 喜欢 人 简称 前 两 个 为 “pattern” 和 “matcher”"， 许 多 时 
候 我 们 只 会 用 到 这 两 个 类 。 人 简单 地 说 ，Pattern 对 象 就 是 编译 好 的 正则 
表达 式 ， 可 以 应 用 于 任意 多 个 字符 串 ，Matcher 对 象 则 对 应 单独 的 实 
例 ， 表 示 将 正则 表达 式 应 用 到 某 个 具体 的 目标 字符 串 上 。 

Java 1.5 新 提供 的 MatchResult， 它 封装 了 成 功 匹 配 的 数据 。 匹 配 数 
据 可 以 在 下 一 次 匹配 尝试 之 前 从 Matcher 本 身 获得 ， 也 可 以 提取 出 来 作 
为 MatchResult 保 存 。 

如 果 匹 配 尝试 所 使 用 的 正则 表达 式 格式 不 正确 (例如 ， [oops] 
的 语法 就 不 正确 ，， 吏 会 抛 出 PatternSyntaxException 异常 。 这 是 一 个 
unchecked exception， 继 承 目 java.lang.IlegalAgumentException ° 

下 面 是 一 个 完整 的 、 详 细 的 程序 ， 示 范 了 简单 的 匹配 : 


String myText = "this is my lst test string"; 

String myRegex = "\\d+\\wt"; // 表示 \d+\w+ 

java.util.regex.Pattern p = java.util.regex.Pattern.compile(myRegex) ; 
java.util.regex.Matcher m = p.matcher (myText) ; 


if (m.find()) { 
String matchedText = m.group(); 
int matchedFrom = m.start(); 
int matchedTo = m.end(); 
System.out.println("matched [" + matchedText + "] " + 
"from " + matchedFrom + 
"to " + matchedTo + "."); 
else { 


System.out.println("didn't match"); 


结果 是 ‘matched [1st] from 12 to 15.:。 在 本 章 的 所 有 例子 中 ， 我 都 
用 斜体 表示 变量 名 。 如 果 这 样 声 明 ， 可 以 省 略 粗 体 部 分 ; 

import java.util.regex. * ; 

它 应 该 放 在 程序 的 头 部 ， 和 第 3 章 的 例子 (95) 一 样 。 

这 是 标准 的 做 法 ， 而 且 程序 更 容易 管理 。 本 章 的 其 他 程序 省 略 了 
importi# fj ° 

java.util.regex 使 用 的 对 象 模型 与 其 他 大 多 数 语言 不 同 。 请 注意 ， 前 
面 例子 中 的 Matcher 对 象 m， 是 通过 把 Pattern 对 象 科目 标 字 符 串联 系 起 
来 得 到 的 ， 它 用 来 进行 实际 的 匹配 尝试 (使 用 find 方 法 ) ， 以 及 查询 结 
果 (使 用 group、start 和 end 方 法) 。 

这 办 法 初 看 起 来 可 能 有 点 古怪 ， 但 你 很 快 束 能 适应 了 。 


The Pattern.compile() Factory 


ThePattern.compile() Factory 

正则 表达 式 的 Pattern 对 象 是 通过 Pattern.compile 生 成 的 。 第 一 个 参 
数 是 代表 正则 表达 式 的 字符 串 〈 衬 101) 。368 页 表格 8-3 中 的 选项 可 以 
作为 第 二 个 参数 。 下 面 的 代码 从 字符 串 myRegex 生 成 一 个 pattern， 进 行 
不 区 分 大 小 写 的 匹配 : 


Pattern pat = Pattern.compile (myRegex 
Patt ern.CASE_ INSENSITIVE Pattern. UNICODE _CASE); 


预定 义 的 pattern 常量 用 来 指定 编译 选项 (例如 
Pattern.CASE_INSENSITIVE) ， 这 可 能 有 点 笨拙 〈 注 2) ， 所 以 我 会 使 
用 正则 表达 式 内 部 的 模式 修饰 符 (110) 。 包 括 378 页 的 ”(? x) , 
399 页 的 ' (2? s) | MAR! (Pi) je 

不 过 ， 预 定义 常量 固然 复杂 ， 但 这 种 “ 策 办 法 (unwieldy) ”能 够 降 
低 新 手 阅 读 代 码 的 难度 。 如 果 没 有 页 面 宽度 限制 ， 我 们 可 以 这 样 写 第 
384 页 的 Pattern.compile 的 第 二 个 参数 : 

Pattern. UNIX_LINES|Pattern.CASE_INSENSITIVE 

ee oe E id) , ° 

从 名 字 可 以 看 出 ， 这 一 步 把 正则 表达 式 解析 并 编译 为 内 部 形式 。 
第 6 章 对 此 有 详细 讲解 a ， 简 单 地 说 ， 在 字符 串 内 应 用 表达 式 
的 整个 过 程 中 ， 编 译 pattern 通常 是 最 耗 时 间 的 。 所 以 要 把 编译 独立 出 

文 样 就 可 以 先期 将 正则 表达 式 编译 好 ， 重 复 使 


FA e 

当然 ， 如 果 正 则 表达 式 编 译 之 后 只 需要 使 用 一 次 ， 编 译 时 机 就 不 

个 问题 ， 但 如 果 需 要 多 次 应 用 〈 例 如 应 用 到 读 入 文件 的 每 一 行 ) ， 
预 编译 Pattemn 对 象 就 很 有 价值 。 

调用 Patern.compile 可 能 抛 出 两 种 类 型 的 异常 : 如 采 正 则 表达 式 不 
合 规 则 ， 抛 出 Pattern-SyntaxException ， 选 项 不 合 规则 ， 抛 出 
IllegalArgumentException ° 


Pattern 的 matcher 方 法 


Pattern's matchermethod 

下 一 节 (394) 我 们 会 看 到 ，Pattern 提 供 了 某 些 简便 的 方法 ， 但 
是 大 多 数 情 况 下 ， 我 们 只 需要 一 个 方法 完成 所 有 工作 : matcher ° C 
受 一 个 参数 ， 需 要 检索 的 字符 串 〈 注 3) 。 此 时 并 没有 确切 应 用 这 个 正 
则 表达 式 ， 而 只 是 为 将 pattern 应 用 到 特定 的 字符 串 做 准备 。matcher 方 
法 返回 一 个 Matcher 对 象 。 


Matcher 对 象 


The Matcher Object 

把 正则 表达 式 和 目标 字符 串联 系 起 来 ， 生 成 Matcher 对 象 之 后 ， 就 
可 以 以 多 种 方式 将 其 应 用 到 目标 字符 串 中 ， 并 查询 应 用 的 结果 。 例 
如 ， 对 于 给 定 的 Matcher 对 象 m， 我 们 可 以 用 m.find () 来 把 m 的 表达 式 
应 用 到 目标 字符 串 中 ， 返 回 一 个 Boolean 值 ， 表 示 是 否 能 找到 匹配 。 如 
果 能 找到 ，m.group () 返回 实际 匹配 的 字符 串 。 

在 讲解 Matcher 的 各 种 方法 之 前 ， 不 妨 和 完了 解 了 解 它 保存 的 各 种 信 
筷 。 为 了 方便 阅读 ， 下 面 的 清单 都 提供 了 对 应 的 详细 讲解 部 分 的 页 
码 。 第 一 张 清单 中 的 元 素 是 程序 员 能 够 设置 和 更 改 的 ， 而 第 二 张 清单 
中 的 元 素 是 只 读 的 。 

程序 员 能 够 设置 和 修改 的 是 : 

e Patten 对 象 ， 由 程序 员 在 创建 Matcher 时 指定 。 可 以 通过 
usePattern () 方法 更 改 (393) 。 当 前 所 用 的 Pattern 可 以 用 pattem 

O 方法 获得 。 

o HIRTIE (或 其 他 CharSequence 对 象 ) ， 由 程序 员 在 创建 
Mtatcher 时 指定 。 可 以 通过 reset (text) 方法 更 改 (392) ° 

e 目 标 字 符 串 的 “检索 范围 (region) ” (394) 。 默 认 情 况 下 ， 检 
索 范 围 惑 是 整个 目标 字符 串 ， 但 是 程序 员 可 以 通过 region 方法 ， 将 其 
修改 为 目标 字符 串 的 某 一 段 。 这 样 某 些 (而 不 是 全 部 ) 匹配 操作 就 只 
能 在 某 个 区 域内 进行 。 

当前 检索 范围 的 起 始 和 结束 偏 移 值 可 以 通过 regionStart 和 
regionEnd 方法 获得 (386) 。reset 方 法 (392) 会 把 检索 范围 重新 
设置 为 整个 目标 字符 串 ， 任 何在 内 部 调用 reset 方 法 的 方法 也 是 一 样 。 

eanchoring bounds 标 志 位 。 如 采 检 索 范 围 不 等 于 整个 目标 字符 串 ， 
程序 员 可 以 设 定 ， 是 否 将 检索 范围 的 边界 设置 为 “文本 起 始 位 置 ? 和 “ 文 
本 结束 位 置 *， 这 会 影响 文本 行 边界 元 字符 anga) 。 

默认 情况 下 ， 这 个 标志 位 为 tue， 但 也 可 能 改变 ， 可 以 通过 
useAnchoringBounds (388) 和 hasAnchoringBounds 方 法 来 修改 和 查 


询 。Reset 方 法 不 会 修改 标志 位 。 

etransparent bounds 标 志 位 。 如 果 检 索 范 围 是 整个 目标 字符 串 中 的 
一 段 文本 ， 设 置 为 true 容 许 各 种 “考察 (looking) ”结构 (顺序 环视 、 刻 
序 环 视 ， 以 及 单词 分 界 符 ) 超越 检索 范围 的 边界 ， 检 查 外 部 的 文本 。 

默认 情况 下 ， 这 个 标志 位 为 false， 但 也 可 能 改变 ， 可 以 通过 
useTransparentBounds (388) 和 hasTran-sparentBounds 方 法 来 修改 和 
查询 。Reset 方 法 不 会 修改 标志 位 。 

下 面 的 只 读数 据 保存 在 matcher 内 部 : 

e 当前 pattern 的 捕获 型 括号 的 数目 可 以 通过 groupCount (377) 方 
法 查询 。 

e 目 标 字 符 串 中 的 match pointer 或 current location， 用 于 文 持 “寻找 下 
一 个 匹配 ”的 操作 (通过 find 方 法 呈 375) 

e 日 标 字 符 串 中 的 append pointer， 在 查找 -替换 操作 中 (380) , 
复制 未 匹配 的 文本 部 分 时 使 用 。 

e 表 示 到 达 字 符 串 结尾 的 上 一 次 匹配 壬 斌 是 否 成 功 的 标志 位 。 可 以 
通过 hitEnd 方法 (390) 获得 这 个 标志 位 的 值 。 

ematch result。 如 果 最 近 一 次 匹配 壬 斌 成功 ，Java 会 将 各 种 数据 收 
集 起 来 ， 合 称 为 match result (376) 。 包 括 匹 配 文本 的 范围 (通过 
group () DË) ， 匹 配 文本 在 目标 字符 串 中 的 起 始 和 结束 偏 移 值 ( 通 
过 start () 和 end () 方法 ) ， 以 及 每 一 组 捕获 型 括号 对 应 的 信息 ( 通 
过 group (num) 、start (num) 和 end (num) 方法 ) 

match-result 数据 封装 在 MatchResult 对 象 中 ， 通 过 toMatchResult 
方法 获得 。MatchResult 方 法 有 自己 的 group、start 和 end 方 法 (œ 
377) 

e 一 个 标志 位 ， 表 明 更 长 的 目标 文本 是 否 会 导致 匹配 失败 (匹配 成 
功 之 后 才 可 用 ) 。 如 果 边 界 元 字符 影响 了 匹配 结果 的 生成 ， 则 此 值 为 
true。 可 以 通过 requireEnd 方 法 查看 它 的 值 (390) 

上 面 列 出 的 内 容 很 多 ， 但 是 如 果 按 照 功能 分 别 讲解 ， 便 很 容易 掌 
握 。 这 正 是 下 面 儿 节 的 内 容 。 把 这 一 章 作 为 参考 手册 时 ， 本 章 开头 

(366) 的 列表 会 很 有 用 。 


应 用 正则 表达 式 


Applying the Regex 

把 matcher 的 正则 表达 式 应 用 到 目标 文本 时 ， 主 要 会 用 到 Matcher 的 
REE: 

boolean find() 

此 方法 在 目标 字符 串 的 当前 检索 范围 (384) 中 应 用 Matcher 的 正 
则 表达 式 ， 返 回 的 Boolean 值 表示 是 否 能 找到 匹配 。 如 果 多 次 调用 ， 则 
每 次 都 在 上 次 的 匹配 位 置 之 后 尝试 独 的 匹配 。 没 有 给 定 参 数 的 find 只 使 
用 当前 的 检索 范围 (384) ° 

下 面 是 简单 示例 : 


if (m.find()) 
System.out.println("match [" + m.group() + "]"); 


结果 是 : 
match [Mastring] 
如 果 这 样 写 : 


while (m.find() ) 
System.out.println("match [" + m.group() + "]"); 


结果 就 是 : 
match [Mastering] 


match [Regular] 
match [Expressions] 


ean find(int offset) 


MRE TREER, WAR ine MES HFA BT offset 
字符 的 位 置 开始 。 如 采 offset 为 负数 或 超出 了 目标 字符 串 的 长 度 ， 会 抛 


出 IndexOutOfBoundsException 异 常 。 


这 种 形式 的 find 不 会 受 当 前 检索 范围 的 影响 ， 而 会 把 它 设 置 为 整 
个 “目标 字符 串 ” ( 它 会 在 内 部 调用 reset 方 法 392) 。 
第 400 页 的 补充 内 容 (作为 第 399 页 问题 的 答案 ) 给 出 了 恰当 的 例 


于 

boolean matches() 

此 方法 返回 的 Boolean 值 表示 matcher 的 正则 表达 式 能 否 完全 匹配 日 
标 字 人 符 串 中 当前 检索 苑 围 的 那 段 文本 。 也 瓯 是 说 ， 如 果 匹 配 成 功 ， 匹 
配 的 文本 必须 从 检索 范围 的 开头 开始 ， 到 检索 范围 的 结尾 结束 (默认 
情况 就 是 整个 目标 字符 串 ) 。 如 果 检 索 范 围 设置 为 默认 的 “所 有 文 
本 ”，matches 比 使 用 ha (? : ...) z 要 简单 。 

不 过 ， 如 果 当 前 检索 范围 不 等 于 默认 情况 (384) ， 使 用 matches 
可 以 在 不 受 anchoring-bounds 标 志 位 (388) 影响 的 情况 下 检查 整个 检 
索 范 围 中 的 文本 。 

举例 来 说 ， 如 果 使 用 CharBuffer 来 保存 程序 中 用 户 输入 的 文本 ， 
而 检索 范围 设 定 为 用 户 用 鼠标 选 定 的 部 分 。 如 果 用 户 点 击 选区 的 部 
分 ， 可 以 用 m.usePattern (urlPattern) .matches () 来 检查 选 定 部 分 是 否 
为 URL (如 果 是 ， 则 进行 相应 的 处 理 ) 


String 对 象 也 支持 matches H: 


"1234". matches ("\\d+"); // true 
"123!".matches("\\d+"); // false 


! lookingAt () 
此 方法 返回 的 Boolean 值 表示 Matches 的 正则 表达 式 能 否 在 当前 日 
标 字 符 串 的 当前 检索 范围 中 找到 匹配 。 它 类 似 于 matches 方 法 ， 但 不 要 
求 检索 范围 中 的 整 段 文本 都 能 匹配 。 


查询 匹配 结果 


Querying Match Results 


下 面 列 出 的 Matcher 方 法 返回 了 成 功 匹 配 的 信息 。 如 果 正 则 表达 式 
还 未 应 用 过 ， 或 者 匹配 尝试 不 成 功 ， 它 们 会 抛 出 IllegalStateException 。 


接收 num 参 数 (对 应 一 组 捕获 型 括号 ) 的 方法 ， 如 果 给 定 的 num 非 法 ， 
会 抛 出 IndexOutOfBoundsException ° 

请 注意 start 和 和 end 方法， 它们 返回 的 偏 移 值 不 受 检 索 范 围 的 影响 
一 一 偏 移 值 从 整个 目标 字符 串 的 开头 开始 计算 ， 而 不 是 检索 范围 的 开 
头 o 


后 面 还 给 出 了 一 个 例子 ， 讲 解 其 中 大 部 分 方法 的 使 用 。 

String group() 

返回 前 一 次 应 用 正则 表达 式 的 匹配 文本 。 

int groupCount() 

返回 正则 表达 式 中 与 Matcher 关 联 的 捕获 型 括号 的 数 日 。 在 
group、start 和 end 方 法 中 可 以 使 用 小 于 此 数目 的 数字 作为 numth 参 数 ， 
下 文 介绍 ( 注 4) 。 

String gropu(int num) 

返回 编号 为 numa 的 捕获 型 括号 匹配 的 内 容 ， 如 果 对 应 的 捕获 型 括 
号 没有 参与 匹配 ， 则 返回 null。 如 果 numa 为 0， 表 示 返 回 整 个 匹配 的 内 
容 ，group (0) 就 等 于 group () ° 

int start(int num) 

此 方法 返回 编号 为 numu 的 捕获 型 括号 所 匹配 文本 的 起 点 在 目标 字 
符 串 中 的 绝对 偶 移 值 一 一 即 从 目标 字符 串 起 始 位 置 开 始 计算 的 偏 移 
值 。 如 采 捕 获 型 括号 没有 参与 匹配 ， 则 返回 -1。 
int start() 
此 方法 返回 整个 匹配 起 点 的 绝对 偏 移 值 ，start () 就 等 于 start 


(0) 
int end(int num) 


此 方法 返回 编号 为 numa 的 捕获 型 括号 所 匹配 文本 的 终点 在 目标 字 


符 串 中 的 绝对 偶 移 值 一 一 即 从 目标 字符 串 起 始 位 置 开 始 计算 的 侦 移 
值 。 如 采 捕 获 型 括号 没有 参与 匹配 ， 则 返回 -1。 
int end() 


次 方法 返回 整个 匹配 的 终点 的 绝对 偏 移 值 ，end O 就 等 于 end 
(0) 。 


MatcheResult toMatchResult() 


此 方法 从 Java 1.5.0 开 始 提供 ， 


匹配 的 信息 。 它 和 Matcher 类 一 样 ， 


和 groupCount 方 法 。 如 采 前 一 次 匹配 不 成 功 ， 或 者 Matcher i 
调用 toMatcheResult 会 抛 出 IlegalStateException ° 


匹配 操作 ， 
示例 


返回 的 MatchResult 对 象 封装 了 当前 
也 包含 上 面 列 出 的 group ` start ` 
还 没有 进 


下 面 的 例子 示范 了 者 干 方法 的 使 用 。 给 定 一 个 URL 字符 第， 这 段 


代码 会 找 出 URL 的 协议 名 (http kæ https) 、 主 机 名 ， 以 及 可 能 
现 的 端口 号 : 
String url = “http://regex.info/blog"; 
String regex = "(?x) “(https?):// ([*/:]+) (?: (\\d+)) 2"; 
Matcher m = Pattern.compile(regex) .matcher (url); 
if (m.find()) 
System.out.print ( 
"Overall [" + m.group() + "]" + 
" (from " + m.start() +" to" + mend() + ")\n" + 
"Protocol [" + m.group(1) + "]" + 
" (from T + m.start(l1) + " to " + m.end(1) + ")\n" + 
"Hostname [" + m.group(2) + "]" + 
" (from " + m.start(2) + " to " + m.end(2) + ")\n" 


; 


// group(3) 可 能 未 参与 匹配 ， 此 处 应 小 心 对 待 


if (m.group(3) == null) 
System.out.println("No port; 
else { 


default of '80' 


is assumed"); 


System.out.print("Port is [" + m.group(3) + "] " + 


"(from " + 


执行 的 结果 是 : 


Overall 
Protocol [http] 
Hostname [regex.info] 
No port; default of 


m.start (3) 


[http://regex.info] 
(from 0 to 4) 


'go' 


+ "to " + mend(3) + ")\n"); 


(from 0 to 17) 


(from 7 to 17) 
is assumed 


简单 查找 -替换 


Simple Search and Replace 

上 面 介绍 的 方法 足够 进行 查找 - 蔡 换 操作 了 ， 只 是 比较 麻烦 ， 但 是 
Matcher 提供 了 人 徐 便 的 方法 。 

String replaceAll(String replacement) 

返回 目标 字符 串 的 副本 ， 其 中 Matcher 能 够 匹配 的 文本 都 会 被 奉 换 
为 replacement， 具 体 处 理 过 程 在 380 页 。 

此 方法 不 受 检索 范围 的 影响 ( 它 会 在 内 部 调用 reset 方 法 ) ， 不 过 
第 382 页 介绍 了 在 检索 苑 围 中 进行 这 样 操作 的 方法 。 

String 类 也 提供 了 replaceAll 的 方法 ， 所 以 : 

string.replaceAll(regex,replacement) 

MST: 

Pattern.compile(regex).matcher(string).replaceAll(replacement) 

String replaceFirst(String replacement) 

此 方法 类 似 replaceAll， 但 它 只 对 第 一 次 匹配 (如 果 存 在 ) wT eS 
换 。 

String 类 也 提供 了 replaceFirst 方 法 。 

Static String quoteReplacement(String text) 


此 static 方 法 从 Java 1.5 开 始 提供 ， 返 回 text 的 文字 用 作 replacement 的 
参数 。 它 为 text 副 本 中 的 特殊 字符 添加 转 义 ， 避 免 了 下 一 页 讲解 的 正则 
表达 式 特 殊 字 符 处 理 〈 下 一 节 也 给 出 了 MatcherquoteReplacement 的 例 
Pjs 

简单 查找 -替换 的 例子 

下 面 的 程序 将 所 有 的 “Java 1.5” 改 为 “Java 5.0”"， 用 市 场 化 的 名 称 取 
代 开 发 名 称 : 


String result = m.replaceAll ("Java 5.0"); 


结果 是 : 

Before Java 5.0 was Java 1.4.2.After Java 5.0 is Java 1.6 

如 果 pattern 和 matcher 不 需要 复 用 ， 可 以 使 用 链 式 编程 : 

Pattern.compile( " \\bJava\\s * 1\\.5\\b " ).matcher(text).replaceAll( " 
Java 5.0 " ) 

(如 果 单 个 线程 中 需要 多 次 用 到 同一 pattern， 预 编译 pattern 对 象 可 

以 提升 效率 呈 372) 

对 正则 表达 式 稍 加 修改 ， 束 可 以 用 它 来 把 “Java 1.6” 改 为 “Java 
6.0” (当然 也 需要 修改 replacement 字 符 串 ， 讲 解 见 下 页 ) 

Pattern.compile( " \\bJava\\s * 1\\.([56])\\b 
"),matcher(text).replaceAll( " Java$1.0 " ) 

对 于 同样 的 输入 文本 ， 结 果 如 下 : 

Before Java 5.0 was Java 1.4.2.After Java 5.0 is Java 6.0 

如 果 只 需要 替换 第 一 次 出 现 的 文本 ， 可 以 使 用 replaceFirst， 而 不 是 
replaceAll。 除 了 这 种 情况 ， 还 有 一 种 情况 可 以 使 用 replaceFirst， 即 明确 
知道 目标 字符 串 中 只 存在 一 个 匹配 时 ， 使 用 replaceFirst 可 以 提高 效率 

(如 果 了 解 正 则 表达 式 或 是 目标 字符 串 ， 可 以 预知 这 一 点 ) 

replacement 参 数 

replaceAll 和 replaceFirst 方法 (以 及 下 一 节 的 appendReplacement 
方法 ) 接收 的 replacement 参 数 在 插入 到 匹配 结果 之 前 ， 会 进行 特殊 处 
J. 

e'$1”、‘$2’ 之 类 会 蔡 换 为 对 应 编号 的 捕获 型 括号 匹配 的 文本 ($0 
会 被 替换 为 所 有 匹配 的 文本 ) 

eH RY Zim WA A E ACIN RMF, Smo 
IllegalArgumentException = h ° 

4 之 后 的 数字 ， 只 会 应 用 *“ 有 意义 ”的 部 分 。 如 果 只 有 3 组 捕获 型 括 
号 ， 则 ‘$25 会 被 视 为 $2 然后 是 ‘5 ， 而 此 时 $6 会 抛 出 
IndexOutOfBoundsException ° 

e 反 和 斜 线 用 来 转 义 后 面 的 字符 ， 所 以 ^\$' 表 示 美 元 符号 。 同 样 的 道 
H, VKR (Java FBP, ANIM ZIAD PN HE 


FADO RIA) 。 同 样 ， 如 果 有 12 组 捕获 型 括号 ， 而 我 们 希望 使 用 第 
一 组 捕获 型 括号 匹配 的 文本 ， 然 后 是 ‘2 ， 应 该 是 这 样 $1\2’。 

a R AS YH Æ replacement F fF FAN A A, mee OA 
MatcherquoteReplacement 方 法 ， 确 保 不 会 出 销 。 如 采用 户 的 正则 表达 
式 是 uURegex，replacement 是 URep1， 下 面 的 做 法 可 以 确保 替换 的 安全 : 

Pattern.compile(uRegex).matcher(text).replaceAll(Matcher.quoteRepla 
cement(uRepl)) 


高 级 查找 - 蔡 换 


Advanced Search and Replace 

有 两 个 方法 可 以 直接 操作 Matcher 的 查找 -替换 过 程 。 它 们 配合 起 
来 ， 把 结果 存 入 用 户 指定 的 StringBuffer 中 。 第 一 种 方法 每 次 匹配 之 后 
都 会 调用 ， 在 result 中 存 入 replacement 字 符 串 和 匹配 之 间 的 文本 。 第 二 
种 方法 会 在 所 有 匹配 完成 之 后 调用 ， 将 目标 字符 串 中 最 后 的 文本 找 贝 

Matcher appendReplacement(StringBuffer result,String replacement) 

在 正则 表达 式 应 用 成 功 之 后 (通常 是 find) 马上 调用 此 方法 会 把 两 
个 字符 串 添 加 到 指定 的 result P: 第 一 个 是 原始 目标 字符 串 匹 配 之 前 的 
文本 ， 然 后 是 经 过 上 面 讲解 的 特殊 处 理 的 replacement 字 符 串 。 

举例 来 说 ， 如 果 matcher m 与 正则 表达 式 \w+| 和 '-- > onettest<- 
-" 相 联系 ，while 循 环 的 第 一 轮 情况 如 下 : 

while (m.find() ) 
m.appendReplacement (sb, "XXX") 
find 找 到 下 画 线 标注 的 部 分 ->enettest<--，。 


然后 ， 第 一 次 appendReplacement 调 用 会 在 StringBuffer result 中 加 入 
匹配 之 前 的 文本 和-->，， 跳 过 匹配 的 文本 ， 再 插入 replacement 字 人 符 
FA ‘XXX’ ° 

While 循环 的 第 二 轮 ，find 匹 配 -->onettestx-- 。 此 时 调用 
appendReplacement 会 给 sb 附加 上 匹配 之 前 的 文本 +， 然后 仍然 是 字符 
FA ‘XXX’ ° 


这 样 sb 的 值 就 是 ‘-->>XXX+XXX’，m 在 原始 目标 字符 串 中 对 应 的 
位 置 是 ‘--> onettest 

区 

<--。 现 在 该 使 用 appendTail 方 法 了 ， 下 文 将 会 介绍 。 

StringBuffer appendTail(StringBuffer result) 

找到 所 有 匹配 之 后 〈 或 者 是 ， 找 到 期 望 的 匹配 之 后 一 一 此 时 用 户 
可 以 停止 匹配 过 程 ) ， 这 个 方法 将 目标 字符 串 中 剩 下 的 文本 附加 到 提 
供 的 StringBuffer 中 。 

TEED, fe PRM ie: 

m.appendTail(sb) 

将 <--' 附 加 到 sb。 这 样 就 得 到 '-- >XXX+XXX<--:， 查 找 -替换 完 
成 。 
查找 -替换 示范 
下 面 实现 了 一 个 自己 的 replaceAl 的 方法 (并 非 必须 ， 只 是 作为 示 


SS 

范 ) 
public static String replaceAll(Matcher m, String replacement) 
| 


m.reset(); // 保证 Matcher 不 受 之 前 的 影响 
StringBuffer result = new StringBuffer(); // 生成 用 于 替换 的 副本 
while (m.find()) 
m.appendReplacement (result, replacement); 
m.appendTail (result); 
return result.toString(); // 转换 为 String， 然 后 返回 


它 与 Java 内 建 的 replaceAll 方 法 一 样 ， 它 不 受 检索 范围 (384) 
的 影响 ， 而 是 在 查找- 替换 之 前 重 置 检索 范围 。 

为 了 弥补 这 个 缺憾 ， 下 面 的 replaceAll 只 在 检索 范围 中 进行 ， 修 改 
和 新 增 的 代码 会 标注 出 来 : 


ng replaceAllRegion 
{ 
Integer start = m.regionStart() ; 
Integer end = m.regionEnd() ; 
m.reset().region(start, end); // ŻE matcher, 2&6 region 


+ 4 $i I £ 
to R . 
-vy (le d t 


这 里 使 用 “方法 链 (译注 1) ”结合 reset 和 region， 详 细 讲 解 请 参阅 第 
389 页 。 下 面 的 程序 更 加 完善 ， 它 将 metric 变 量 中 的 摄氏 温度 转换 为 华 
氏 温 度 : 

// 构建 一 个 matcher， 匹 配 "Metricn 变 量 中 后 面 跟 有 "C" 的 数值 

// 下面 的 正则 表达 达 式 是 : ( \dt(?:\.\d* )? )C\bi 

Matcher m = Pattern.compile("(\\d+(?:\\.\\d*) ?)C\\b") .matcher (metric); 
StringBuffer result = new StringBuffer(); /1/ 生 成 用 于 替换 的 副本 

while (m.find()) 

{ 

float celsius = Float.parseFloat(m.group(1)); // 得 到 数值 ， 转 换 为 浮 点 数 

int fahrenheit = (int) (celsius * 9/5 + 32); // 转换 为 华氏 温度 

m,appendReplacement (result, fahrenheit + "F"); // dA 


ra 


m.appendTail (result) ; 
System.out.println(result.toString()); // 显示 结果 


ge metric’ & g “from 36.3C to 40.1C.”, 2922342 “from 97F to 
104F.” ° 


原 地 查找 -替换 


In-Place Search and Replace 
现在 还 只 出 现 过 对 String 对 象 使 用 java.util.regex 的 例子 ， 但 是 
Matcher 其 实 适 用 于 任何 实现 了 CharSequence 接 口 的 类 ， 所 以 我 们 能 够 


对 目标 文本 进行 实时 的 、 原 地 (in place) 的 修改 。 

StringBuffer 和 StringBuilder 是 两 种 常用 的 实现 了 CharSequence 接 口 
的 类 ， 前 者 保证 线程 安全 性 ， 但 效率 略 低 。 这 两 者 都 可 以 作为 String 来 
使 用 ， 但 它们 的 值 可 以 变化 。 本 书 中 的 例子 使 用 了 StringBuilder， 但 如 
果 在 多 线程 环境 中 ， 请 使 用 StringBuffer 。 

这 个 人 简单 的 例子 在 StringBuilder 中 搜索 大 写 单词 ， 将 它们 替换 为 小 
写 形式 ES) : 


StringBuilder text = new StringBuilder ("It's SO very RUDE to shout!"); 
Matcher m = Pattern.compile("\\b[\\p{Lu} \\p{Lt}]+\\b") .matcher (text); 
while (m.find()) 

text.replace(m.start(), m.end(), m.group().toLowerCase()); 
System.out.println (text) ; 

结果 是 : 


It's so very rude to shout! 

其 中 匹配 了 两 次 ， 调 用 了 两 次 text.replace。 头 两 个 参数 指定 需要 替 
换 的 文本 范围 〈 跳 过 表达 式 匹配 的 文本 ) ， 然 后 是 用 作 replacement 的 文 
本 〈 也 就 是 匹配 文本 的 小 写 形式 ) 。 

因为 replacement 和 死 配 文本 长 度 相 同 ， 原 地 的 查找 -替换 很 简单 。 
如 果 不 需要 迭代 进行 查找 -替换 ， 这 种 方法 非常 方便 。 

长 度 变 化 的 替换 

如 有 果 replacement 的 长 度 不 同 于 要 替换 文本 的 长 度 ， 情 况 就 复杂 起 
来 。 对 目标 字符 串 的 修改 是 在 “背后 ”进行 的 ， 所 以 “匹配 指针 (match 
pointer) ”( 在 目标 字符 串 中 进行 下 一 次 find 的 开始 位 置 ) 会 发 生 错 
TK ° 

要 解决 这 个 问题 ， 我 们 可 以 自己 维护 匹配 指针 ， 明 确 告诉 find 下 一 
次 党 试 应 该 从 何 处 开始 。 下 面 的 例子 做 了 这 样 的 改进 ， 在 需要 插入 的 
小 写 文 本 两 端 添 加 了 <b>...</b>: 


StringBuilder text = new StringBul r("I t's SO very RUDE to shout!"); 


Matcher m = Pattern. noe: i Ha \b{\\ \p{Lu}\\p{Lt}]+\\b") .matcher (text) ; 
int matchPointer = 0;, / 首先 从 字符 a 
while (m.find (matchPointer) a 

matchPointer = manti // 记录 AKERS ROME 

text.replace(m.sta art (), m.end(), "<b>"+ m. OO CAS 1 +"</b>); 

matchPointer += 7; // 算 上 添加 的 '<b>' 和 '</b>! 
} 
System.out.println (text) ; 

结果 是 : 

It's <b>so</b> very <b > rude </b> to shout! 

Matcher 的 检索 范围 

The Matchers Region 


从 Javal.5 开始 ，Matcher 文 持 可 变化 的 检索 苑 围 ， 通 过 它 ， 我 们 可 
以 把 匹配 尝试 限制 在 Pn =F FF BZ PAE TE 围 。 通常 情况 下 ， 
Matcher 的 检索 范围 包含 整个 目标 字符 串 ， 但 可 以 通过 region 方 法 实时 
修改 。 

下 面 的 例子 检索 HTML 代码 字符 串 ， 报 告 不 包含 ALT 属性 的 
image tag。 对 同一 段 文 本 (HTML) ， 它 使 用 了 两 个 Matcher: 一 个 寻 
找 image tag， 另 一 个 寻找 ALT 属 性 。 

尽管 两 个 Matcher 应 用 到 同一 个 字符 串 ， 但 它们 的 关联 只 局 限于 ， 
用 找到 的 image tag 来 限定 寻找 ALT 属 性 的 范围 。 在 调用 ALT-matcher 的 ] 
find 方 法 之 前 ， 我 们 用 刚刚 完成 的 image-tag 的 匹配 来 设 定 ALTmatcher 
的 检索 范围 。 

tag 的 body 之 后 ， 就 可 以 通过 查找 ALT 来 判断 当前 的 
tag 内 是 否 包 含 ALT 属 性 : 


// &R image tag 的 matcher。 变 量 'html' 包含 需 要 处 理 的 HTM1 代码 


Matcher mImg = Pattern.compile("(?id)<IMG\\s+(.*?)/?>") .matcher (html); 


// 查找 ALT 属性 的 matcher (应 用 于 刚刚 找到 的 IMG tag 中 ) 


Matcher mAlt = Pattern.compile("(?ix)\\b ALT \\s* =") .matcher (html) ; 


// 对 html 中 的 每 个 image tag 
while (mImg.find()) { 
// 把 查找 范围 局 限 在 刚刚 找到 的 tag 中 


mAlt.region(mImg.start(1), mImg.end(1) ); 


// 如 果 没 有 找到 ， 则 报错 ， 输 出 找到 的 整个 image tag 
if (! mAlt.find()) 
System.out.println("Missing ALT attribute in: " + mImg.group()); 


或 许 在 一 处 指定 目标 字符 串 〈 创 建 mAlt Matcher AY) ， 另 一 处 指 
定 检索 范围 (调用 mAlt.region 时 ) 的 做 法 有 些 怪 异 。 果 真如 此 的 话 ， 我 
们 可 以 为 mAlt 创 建 虚 构 的 目标 字符 串 〈 一 个 空 字符 串 ) ， 然 后 每 次 都 
调用 mAlt.reset (html) .region (...) 。 调 用 reset 可 能 会 降低 些 效 率 ， 
但 是 同时 设 定 目标 字符 串 和 检索 范围 的 逻辑 更 加 清晰 。 

无 论 采 取 哪 种 办 法 ， 都 必须 明日 ， 如 有 果 不 设 定 ALT Matcher 的 检索 
范围 ， 对 它 调用 find 束 会 检索 整个 目标 字符 串 ， 返 回 无 关 的 ‘ALT=’ 属 
性 。 

下 面 继续 完善 这 个 程序 ， 返 回 找到 的 image tag 在 HTML 代码 中 的 
行 数 。 我 们 首先 隔离 出 image tag 之 前 的 HTML 代 码 ， 然 后 计算 其 中 的 换 
行 符 数 。 

标注 部 分 为 新 增 代码 : 


// &&image tag új matcher, 变量 'html' 包 仿 需 要 处 理 的 HTM] AG 
Matcher mImg = Pattern.compile("(?id)<IMG\\s+(.*?)/?>") ,matcher (html); 
// 查找 ALT 属性 的 matchez (应 用 于 刚刚 找到 的 TMG tag 中 ) 
Matcher mAlt = Pattern.compile("(?ix)\\b ALT \\s* =") .matcher (html); 
// 查找 换行 符 的 Matcher 
Matcher mLine = Pattern.compile("\\n") .matcher (html) ; 
// 对 HTML 中 的 每 个 img tag ... 
while (mImg.find()) 
{ 
// 把 查找 范围 局 限 在 刚刚 找到 的 上 tag 中 
mAlt.region(mImg.start(1), mImg.end(i) ); 
// RRA, MH, hiki image tag 
if (上 mAlt.find()) { 
// 计算 当前 image tag 之 前 的 换行 符 的 数量 
mLine.region(0, mImg.start()) ; 


int lineNum = 1; // #—#7®FHA1 
while (mLine.find()) 


lineNum++; // 每 遇 到 一 个 换行 符 就 加 1 
System.out.println("Missing ALT attribute on line " + lineNum) ; 


与 之 前 一 样 ， 每 次 设 定 ALT Matcher t2 Aye AY , 4615 Fdimage 
matcher 的 start (1) 方法 得 到 image tag body 在 HIML 中 的 起 始 位 置 。 相 
反 ， 在 设 定 换行 符 匹配 的 检索 范围 终点 时 ， 使 用 start O 方法 来 判断 整 
image tag 的 开始 位 置 (也 就 是 换行 符 计 算 的 终点 ) 。 

几 点 提醒 

记 住 ， 某 些 检 索 相 天 的 方法 并 非 不 受 检索 范围 的 有 影响， 而 是 它们 
在 内 部 调用 了 reset 方 法 ， 把 检索 范围 设 定 为 默认 的 “全 部 文本 ”。 

e 受 检索 范围 影响 的 查找 方法 : 

matches 
lookingAt 


find() (KAR) 
e 会 重 置 matcher 及 其 检索 范围 的 方法 : 


find(text) ( 带 一 个 参数 ) 
replaceAll 
replaceFirst 

reset (4M $F) 


Fmt, VAC RAE Pa Ae (也 或 是 start 和 end 方 法 返 
回 的 数值 ， 是 不 受 检索 范围 影响 的 ， 它 们 只 与 整个 目标 字符 串 的 开始 
位 置 有 天 。 

设 定 及 查看 检索 范围 的 边界 

与 设 定 及 但 看 检索 范围 边界 的 方法 有 3 个 : 

Matcher region(int start,int end) 

将 matcher 的 检索 范围 设 定 在 整个 目标 字符 串 的 start 和 end 之 间 ， 数 
值 均 从 目标 字符 串 的 起 始 位 置 开 始 计算 。 它 同样 会 重 置 Matcher， 将 “ 匹 
配 指针 ?指向 检索 范围 的 开头 ， 所 以 下 一 次 调用 find 从 此 处 开始 。 

如 果 没 有 重新 设 定 ， 或 是 调用 reset 方 法 (无 论 是 显 式 调用 还 是 在 
其 他 方法 内 部 调用 392) ， 检 索 范 围 都 不 会 变化 。 

返回 值 为 Matcher 对 象 本 身 ， 所 以 此 方法 可 用 于 方法 链 (389) 。 

如 采 start 或 end 超 出 了 目标 字符 串 的 范围 ， 或 者 start 比 end 要 大 ， 会 
4 H IndexOutOf-BoundsException ° 

int regionStart() 


STB] SB tor 2 Ye E AEB oe fie E H eB Pe, BRU 


int regionEnd() 

TTA] SB RE EBA 2 oR eS TE eA LE, BRU 
EB inF FF BR AIKEE ° Al Aregion h AASR Al $e start #lend, WRR E 
望 设置 其 中 一 个 ， 可 能 不 太 方 便 操 作 。 表 8-4 给 出 了 方法 。 


表 8-4: 设 定 检索 范围 的 单个 边界 


起 始 边界 Java 代码 


明确 设 定 不 修改 m.region(start, m.regionEnd()); 
不 修改 明确 设 定 m.region(m.regionStart(), end); 
明确 设 定 不 修改 m.reset().region(start, m.regionEnd()); 
不 修改 a i E m.region(0, end); 
超越 检索 范围 


如 果 将 检索 范围 设 定 为 整个 日 标 字 符 串 中 的 一 段 ， 正 则 引擎 会 忽 
略 范围 之 外 的 文本 。 也 就 是 说 ， 检 索 范 围 的 起 始 位置 可 以 用 ^) 匹 
配 ， 而 它 可 能 并 不 是 目标 字符 串 的 起 始 位 置 。 

不 过 ， 某 些 情 况 下 也 可 以 检查 检索 范围 之 外 的 文本 。 启 用 
transparent bounds 能 够 让 “考察 (looking) ”结构 检查 范围 之 外 的 文本 ， 
WRZ A anchoring bounds, ， 则 检索 范围 的 边界 不 会 被 视 为 输入 数据 的 
起 始 /结束 位 置 (除非 实际 情况 如 此 ) 。 

修改 这 两 个 标志 位 的 理由 与 修改 默认 检索 范围 密切 相关 。 之 前 用 
到 了 检索 范围 的 例子 都 不 需要 设 定 这 两 个 标志 位 一 一 与 检索 范围 相关 
的 查找 既 不 需要 销 点 也 不 需要 “考察 ”结构 。 

如 果 程 序 把 需要 用 户 编辑 的 文本 存放 在 CharBuffer 中 ， 用 户 希 望 执 
行 查找 -从 换 操作 ， 怠 应 当 把 操作 的 范围 限定 在 光标 之 后 的 文本 中 ， 所 
以 应 当 把 检索 范围 的 起 始 位 置 设 定 为 当前 光标 所 在 的 位 置 。 如 采用 户 
的 光标 指向 下 面 的 位 置 : 

Madagas.; car is much too large to see on foot,so you'll need a car. 


要 求 把 '\bcar\b , HR “automobile” ° KE SMR ZA (即将 
其 设 定 为 光标 之 后 的 文本 ) ， 你 可 能 会 很 惊奇 地 发 现 第 一 次 匹配 就 是 
在 检索 范围 的 开头 : “Madagascar"。 这 是 因为 默认 情况 下 transparent 
bounds 标 志 位 设 定 为 false， 因 此 \b, 将 检索 范围 起 始 位 置 设 定 为 文本 
的 起 始 位 置 ， 而 “看 不 到 ” 左 侧 还 有 字符 。 如 果 将 transparent bounds 设 定 
Jtrue, Nb 就 能 看 到 ‘ce’ 之 前 还 有 ‘s?， 因 此 '\b 不 能 匹配 。 
Transparent Bounds 


与 这 个 标志 位 相关 的 方法 有 两 个 : 


Matcher useTransparentBounds(boolean b) 

it 7E transparent bounds 的 值 。 默 认为 false。 

此 方法 返回 Matcher 本 号 ， 故 可 用 在 方法 链 中 。 

boolean hasTransparentBounds() 

如 果 transparent 生 效 ， 则 返回 true ° 

Matcher 的 transparent-bounds 默认 为 false。 世 就 是 说 检索 范围 的 边 
界 在 顺序 环视 、 逆 序 环视 和 单词 分 界 符 “考察 "时 是 不 透明 的 。 这 样 ， 
正则 引擎 不 会 感知 到 检索 边界 之 外 的 字符 ( 注 6) 。 

也 就 是 说 尽管 检索 范围 的 起 始 位 置 可 能 在 某 个 单词 内 部 ，'"\b | 仍 
然 能 够 匹配 一 一 它 看 不 到 之 前 的 字母 。 

下 面 的 例子 说 明了 transparent bounds 设 置 为 false (默认 ) 的 情况 : 


String regex = "\\bcar\\b"; // \b car\b 

String text = "Madagascar is best seen by car or bike."; 

Matcher m = Pattern.compile (regex) .matcher (text); 

m.region(7, text.length()); 

m.find(); 

System.out.println("Matches starting at character " + m.start()); 


结果 是 : 也 束 是 说 尽管 检索 范围 的 起 始 位 置 可 能 在 某 个 单词 内 
部 ，'\b | 仍然 能 够 匹配 一 一 它 看 不 到 之 前 的 字母 。 

Matches starting at character 7 

单词 分 界 符 的 确 匹 配 了 检索 艺 围 的 起 始 位 置 ， 即 Madagascar, R 
管 此 处 根本 不 是 单词 的 边界 。 如 果 不 设 定 transparent bounds， 单 词 分 界 
符 就 “受骗 (spoofed) ”了 。 

如 果 在 find 之 前 添加 这 条 语句 : 

m.useTransparentBounds(true); 

RDE : 

Matches starting at character 27 

因为 边界 现在 是 透明 的 ， 引 警 可 以 感知 到 起 始 边界 之 前 有 个 字 
S, AMA lb, 在 此 处 无 法 匹配 。 于 是 结果 就 成 了 


66 ‘ ” 
“byecarorsbike. oœ 
UY 


同样 ，transparent-bounds 只 有 在 检索 范围 不 等 于 “整个 目标 字符 
串 * 时 才 有 意义 。 即 使 reset 方 法 也 不 会 重 置 它 。 

Anchoring bounds 

与 anchoring bounds 有 天 的 方法 有 : 

Matcher useAnchoringBounds(Boolean b) 

设置 matcher 的 anchoring-bounds 的 值 ， 默 认为 true。 

此 方法 会 返回 matcher 对 象 本 号 ， 故 可 用 于 方法 链 中 。 

boolean hasAnchoringBounds() 

WRA AA S anchoring bounds， 则 返回 true， 否 则 返回 false 。 

默认 状态 下 ，anchoring bounds 为 tue， 也 就 是 说 行 锁 点 (入 A 
$z\Z) 能 匹配 检索 范围 的 边界 ， 即 检索 范围 不 等 于 整个 目标 字符 串 。 
将 它们 设置 为 false 表 示 行 锁 点 只 能 匹配 检索 艺 围 内 ， 整 个 目标 字符 串 
中 符合 规定 的 位 置 。 

禁用 anchoring bounds 的 理由 可 能 与 使 用 transparent bounds 一 样 ， 当 
用 户 的 “光标 不 在 整 段 文本 的 起 始 位 置 时 ”保证 语意 的 完备 。 

与 transparent-bounds 一 样 ，anchoring bounds 也 只 有 在 检索 范围 不 等 
于 “整个 目标 字符 串 * 时 才 有 意义 。 即 使 reset 方 法 也 不 会 重 置 它 。 


方法 链 


Method Chaining 

下 面 的 程序 初始 化 一 个 Matcher， 并 设 定 某 些 选 项 : 
Pattern p = Pattern.compile(regex); // dt regex 
Matcher m = p.matcher (text); // 4 regex 5 text 建立 联系 ,创建 Matcher 
m.region(5, text.length()); // 将 检索 范围 设 定 为 从 第 5 个 字符 开始 
m.useAnchoringBounds (false); // ^ 之 类 不 能 匹配 检索 范围 的 起 始 位 置 
m.useTransparentBounds (true); // 考察 结构 能 够 超越 检索 范围 


在 前 面 的 例子 中 我 们 看 到 ， 如 果 创 建 Matcher 之 后 不 再 需要 regex， 
可 以 把 前 面 两 步 合并 起 来 : 


Matcher m = Pattern.compile (regex) .matcher (text); 


不 过 ， 因 为 Matcher 的 两 个 方法 会 返回 Matcher 本 喘 ， 可 以 把 它们 整 
合成 一 行 (尽管 因为 排版 的 原因 必须 列 为 两 行 ): 


Matcher m = Pattern.compile (regex) .matcher (text) .region(5, text.length ()) 


. useAnchoringBounds (false) .useTransparentBounds (true) ; 
功能 并 没有 增加 ， 但 用 起 来 更 加 简便 。 这 种 “方法 链 ” 格 式 紧 凌 ， 
一 行程 序 可 能 很 难 对 应 到 单个 步骤 的 文档 ， 不 过 ， 好 的 文档 重 在 说 
明 “ 为 什么 ”而 不 是 “干什么 >， 所 以 这 可 能 并 不 是 个 问题 。 在 第 399 页 的 
程序 中 ， 使 用 方法 链 可 以 保证 格式 紧 兰 清晰 。 


构建 扫描 程序 


Methods for Building a Scanner 


Java 1.5 的 matcher 提 供 了 两 个 新 方法 ，hitEnd 和 requireEnd， 它 们 主 

要 用 来 构建 扫描 程序 (Scaner) 。 扫 描 程 序 将 字符 流 解 析 为 记号 
(token) 流 。 举 例 来 说 ， 编 译 器 的 扫描 程序 会 把 "var.<.34' 解 析 为 三 个 

wW: INDENTIFIER-LESS _THAN-INTEGER ° 

这 两 个 方法 帮助 扫描 程序 决定 ， 刚 刚 完 成 的 匹配 尝试 的 结果 是 否 
应 该 用 来 解释 (interpretation) 当前 输入 。 一 般 来 说 ， 只 要 其 中 一 个 返 
E] ttre， 就 表示 在 做 出 决定 之 前 还 应 该 输入 更 多 的 数据 。 例 如 ， 如 果 当 
前 的 输入 数据 (比如 用 户 在 交互 式 调 试 器 中 输入 的 命令 ) 是 单个 字 
符 ‘<，， 最 好 还 是 看 看 下 一 个 字符 是 否 ‘“=*， 才 能 决定 这 个 记号 是 
LESS_THAN 还 是 LESS_THAN OR EQUAL ° 

在 大 多 数 应 用 正则 表达 式 的 项 目 中 ， 这 两 个 方法 可 能 派 不 上 用 
场 ， 可 是 一 旦 需要 ， 它 们 就 是 不 可 兰 代 的 。 在 这 些 不 常见 的 场合 ，Java 
1.5 中 hitEnd 方 法 存在 的 bug 就 很 让 人 人 恼火。 不过， 看 起 来 Java 1.6 已 经 修 
正 了 这 个 错误 ，Java 1.5 中 的 解决 办 法 将 在 本 章 末 尾 介绍 。 

构建 扫描 程序 已 经 远 远 偏离 了 本 书 的 主 由 ， 所 以 我 只 会 介绍 些 具 
体 方 法 的 定义 ， 并 给 出 例子 (如 果 你 确实 需要 扫描 程序 ， 应 该 去 看 看 


java.util.Scanner) 

boolean hitEnd() 

(Java 1.5 中 这 个 方法 是 不 可 靠 的 ， 解 决 办 法 参见 第 392 页 ) 。 

此 方法 表示 ， 正 则 引擎 在 上 一 次 匹配 笑 试 中 ， 是 否 检 查 了 输入 数 
据 结束 之 后 的 数据 (而 无 论 上 一 次 匹配 是 否 成 功 ) 。 其 中 包含 \b， 和 
S, 之 类 的 边界 检查 。 

如 果 hitEnd 返 回 true， 则 输入 更 多 数据 可 能 会 改变 匹配 结 采 (匹配 
成 功 变 为 匹配 失败 ， 匹 配 失 败 变 为 匹配 成 功 ， 或 者 匹配 文本 发 生变 
化 ) 。 相 反 ， 如 果 返 回 false， 则 匹配 结果 已 经 确定 ， 输 入 更 多 的 数据 
也 不 会 改变 匹配 结果 。 

常见 的 应 用 是 ， 如 果 匹 配 成 功 ， 而 hitEnd 返 回 true， 则 必须 等 每 更 
多 的 输入 数据 才能 最 后 做 出 决定 。 如 果 匹 配 失 败 ， 而 hitEnd 返 回 
false， 应 该 期 待 更 多 的 输入 数据 ， 而 不 是 报告 语法 错误 。 

boolean requireEnd() 

此 方法 只 有 在 匹配 成 功 之 后 才 有 意义 ， 它 表示 正则 引 警 的 匹配 成 
功 与 否 是 否 受 输入 数据 结尾 的 有 影响。 也 就 是 说 ， 如 采 requireEnd 返 回 
true， 更 多 的 输入 数据 可 能 导致 匹配 学 试 失败 ， 如 果 返 回 false， 更 多 的 
输入 数据 可 能 改变 匹配 的 细节 ， 但 不 会 导致 匹配 失败 。 

利 见 的 应 用 是 ， 如 果 requireEnd 返 回 true， 在 最 后 做 出 决定 之 前 ， 
必须 接受 更 多 的 输入 数据 。 

hitEnd 和 requireEnd 都 受到 检索 范围 的 影响 。 

使 用 hitEnd 和 requireEnd 的 例子 

表 8-5 给 出 了 在 lookingAt 搜 索 之 后 使 用 hitEnd 和 requireEnd 的 例子 。 
所 给 的 两 个 例子 虽然 很 答 单 ， 但 足够 解释 这 两 个 方法 。 

表 8-5: 在 lookingAt 搜 索 之 后 使 用 hitEnd 和 requireEnd 的 例子 


ct St 


requierEnd () 


hitEnd() 
true 


| \d+\b| [ ‘1234’ ‘1234’ 
? \d+\b| [><]=? ‘1234*>*567! ‘1234*>*567' | false false 
3 \d+\b |=? > true 
4 | \d+\b] [><]=? >*567 ‘$567! false 
5 | \d+\b! [><] =? ‘>a! false 
6 | \d+\b ] =? “5 2567/ false 
7 | \d+\b] [><]=? oops 匹配 失败 false 
8 | (set|setup) \b fe mee ik 
0 (set|setup)\b | ‘set’ ‘set’ true 
10 | (set|setup) \b | ‘setu’ 匹配 失败 
11 | (set{setup)\b | ‘setup’ ‘setup’ true 
12 | (set}setup)\b | ‘set*x=3" ‘set’x=3' false 
13 | (set|setup)\b | ‘setup*x’ ‘setup*x’ false 
14 | (set|setup)\b | ‘self’ 匹配 失败 

(setlsetup) \b | ‘oops’ 匹配 失败 


表 8-5 中 上 面 7 行 的 正则 表达 式 寻 找 一 个 非 负 整数 以 及 4 个 比较 运算 


F: 大于、 大 于 等 于 、 小 于 、 小 于 等 于 。 下 面 8 行 的 正则 表达 式 更 简 
单 ， 寻 找 单 词 set 或 是 setup。 这 些 例子 很 简单 ， 但 能 说 明 问 题 。 

举例 来 说 ， 第 5 行 中 ， 虽 然 整个 目标 字符 串 都 能 匹配 ，hitEnd 仍 然 
会 返回 false。 原 因 在 于 ， 尽 管 匹配 文本 包含 目标 字符 串 的 最 后 一 个 字 
符 ， 引 擎 也 不 需要 检查 之 后 的 字符 〈 无 论 是 字符 还 是 分 界 符 ) ° 

hitEnd 的 bug 及 解决 办 法 

Java 1.5 中 的 hitEnd 方 法 存在 bug (Java 1.6 已 经 修正 ) ( 注 7) ， 在 
某 些 特殊 情况 下 hitEnd 会 得 到 不 可 靠 的 结 采 : 在 不 区 分 大 小 写 的 匹配 模 
式 下 ， 如 果 正 则 表达 式 的 某 个 可 选 元 素 为 单个 字符 (尤其 是 当 它 的 匹 
配 党 试 失败 时 ) ， 就 会 出 错 。 

例如 ， 在 不 区 分 大 小 写 的 情况 下 使 用 ' >=? ，( 它 作为 大 的 正则 
表达 式 的 一 部 分 ) 会 诱发 这 个 错误 ， 因 为 “=' 是 可 选 的 单个 字符 。 在 不 
区 分 大 小 写 的 情况 下 使 用 “alanlthe， (仍然 是 包含 在 大 的 正则 表达 式 


中 ) 也 会 诱发 这 个 错误 ， 因 为 单个 字符 “ai 是 众多 多 选 分 支 之 一 ， 
此 是 可 选 的 。 

另 两 个 例子 是 values? | 和 '\r? \n\r? \nj ° 

解决 办 法 解决 的 办 法 是 破坏 诱发 条 件 ， 或 者 禁用 不 区 分 大 小 写 的 
匹配 (至 少 是 对 诱发 的 子 表达 式 禁 用 ) ， 或 者 是 把 单个 字符 替换 为 其 
他 元 素 ， 例 如 字符 组 。 

第 一 种 办 法 会 把 >=? | 蔡 换 为 '(? -i >=?) ，， 使 用 模式 修 
范围 (110) 保证 不 区 分 大 小 写 的 匹配 不 会 应 用 于 这 个 子 表达 式 
这 里 不 存在 大 小 写 的 区 别 ， 所 以 这 种 办 法 完全 没 问 题 ) 

如 果 使 用 第 二 种 办 法 ， ralanlthe 就 变 成 了 '[aAjlanlthe,， ， 代 表 了 
使 用 Pattern.CASE_INSENSITIVE 进 行 不 区 分 大 小 写 匹 配 的 情况 。 


Matcher 的 其 他 方法 


Other Matcher Methods 

这 些 Matcher 方 法 尚未 介绍 过 : 

Matcher reset() 

这 个 方法 会 重新 初始 化 Matcher 的 大 多 数 信息 ， 弃 用 前 一 次 成 功 匹 
配 的 所 有 信息 ， 将 匹配 位 置 指向 文本 的 开头 ， 把 检索 范围 (384) 恢 
复 为 默认 的 “全 部 文本 。 只 有 anchoring bounds 和 transparent bounds (© 
388) 不 会 变化 。 

Matcher 有 三 个 方法 会 在 内 部 调用 reset， 因 此 也 会 重 狐 设 定 检索 苑 
Æ]: replaceAll、replaceFirst， 以 及 只 使 用 一 个 参数 的 find。 

这 个 方法 返回 Matcher 本 身 ， 所 以 它 可 以 用 在 方法 链 中 (389) 。 

Matcher reset(CharSequence text) 

这 个 方法 与 reset () 差不多 ， 但 还 会 把 目标 文本 改 为 新 的 String 

(或 者 任何 实现 CharSequence 的 对 象 ) 。 

如 果 你 希望 对 多 个 文本 应 用 同样 的 正则 表达 式 〈 例 如 ， 对 所 读 入 
的 文件 的 每 一 行 ) ， 使 用 reset 方 法 比 多 次 创建 新 的 Matcher 更 有 效率 。 

这 个 方法 返回 Matcher 本 身 ， 所 以 可 以 用 在 方法 链 中 (389) 


村 


饰 
( 


Pattern pattern() 


Matcher 的 pattern 方 法 返回 与 此 Matcher 关 联 的 Pattern 对 象 。 如 果 和 硕 
望 观察 所 使 用 的 正则 表达 式 ， 请 使 用 m.pattern () .pattern () , ES 
调用 Patten WR 名字 相同 ， 但 对 象 不 同 ) 的 pattern 方 法 (394) 。 

Matcher usePattern(Pattern p) 

从 Java 1.5 开 始 添加 ， 这 个 方法 会 用 给 定 的 Pattemn 对 象 蔡 换 当 前 与 
Matcher 关 联 的 Pattern 对 象 。 这 个 方法 不 会 重 置 Matcher， 所 以 能 够 在 文 
本 的 “当前 位 置 ? 开 始 使 用 不 同 的 pattern。 第 399 页 有 此 方法 实际 应 用 的 
例子 和 讨论 。 

这 个 方法 返回 Matcher 本 身 ， 所 以 可 以 用 在 方法 链 中 (389) 。 

String toString() 

从 Java 1.5 中 添加 ， 这 个 方法 返回 包含 Matcher 基 本 信息 的 字符 串 ， 
调试 时 这 很 有 用 。 字 符 串 的 内 容 可 能 会 变化 ， 在 Java 1.6 beta 中 是 这 
样 : 

Matcher m = Pattern.compile("(\\wt)").matcher ("ABC 123"); 
System.out.println(m.toString()); 

m.find(); 

System.out.println(m.toString()); 

结果 是 : 
java.util.regex.Matcher [pattern=(\w+) region=0,7 lastmatch=] 
java.util.regex.Matcher[pattern=(\w+) region=0,7 lastmatch=ABC] 

Java 1.4.2 的 Matcher 类 只 有 继承 自 java.lang.Object 的 toString 方 法 ， 
它 返 回 没什么 信息 含量 的 字符 串 : ‘java.util.regex.Matcher@480457 ° 

查询 Matcher 的 目标 字符 串 

Matcher 类 没有 提供 查询 当前 目标 字符 串 的 方法 ， 但 有 些 办 法 绕 过 
了 这 种 限制 : 


//% pattern 在 下 面 的 函数 中 使 用 ， 此 处 编译 并 保存 ， 是 为 了 提高 效率 


static final Pattern pNeverFail = Pattern.compile("*"); 


//3&@45 matcher 对 象 关联 的 目标 字符 串 

public static String text(Matcher m) 

{ 
// 记 住 这 些 位 置 ， 以 备 之 后 恢复 
Integer regionStart = m.regionStart(); 
Integer regionEnd = m.regionEnd(); 
Pattern pattern = m.pattern(); 


// 只 有 这 样 才 能 返回 字符 事 


String text = m.usePattern (pNeverFail).replaceFirst(""); 


// 恢 复 之 前 记录 的 位 置 


m.usePattern (pattern) .region(regionStart, regionEnd); 


// 返回 文本 


return text; 


这 里 使 用 replaceFirst 方 法 ， 以 及 虚构 的 pattern 和 replacement 字 符 
串 ， 来 取得 目标 字符 串 的 未 经 修改 的 副本 。 其 中 它 重 置 了 Matcher， 但 
也 恢复 了 之 前 的 检索 范围 。 它 不 是 特别 好 的 解决 方案 (效率 也 不 是 很 
高 ， 而 且 即 便 Matcher 的 目标 字符 串 可 能 是 其 他 类 型 也 会 返回 
String) ， 但 是 在 Sun 给 出 更 好 的 办 法 之 前 ， 它 还 凑合 。 


Pattern 的 其 他 方法 


Other Pattern Methods 

除了 主要 的 compile factories，Pattern 类 还 提供 了 一 些 辅助 方法 : 

split 

下 一 页 会 详细 讲解 两 种 形式 的 split 方 法 。 

String pattern() 

这 个 方法 返回 用 于 创建 本 pattern 的 正则 表达 式 字 符 串 。 

String toString() 

这 个 方法 从 Java 1.5 之 后 可 用 ， 等 价 于 pattern 方 法 。 

int flags() 

这 个 方法 返回 pattern 创 建 时 传递 给 compile factory 的 flag 参 数 〈 作 为 
整数 ) 。 

static String quote(String text) 

从 Java 1.5 开始 提供 的 static 方法 ， 返 回 text 对 应 的 正则 文字 字符 
串 ， 能 够 作为 Pattern.compile 的 参数 。 例 如 ，Pattern.quote ( " main 

O ") 返回 字符 串 ^Qmain () \E*， 作 为 正则 表达 式 它 解释 为 
\Qmain () \E, ， 完 全 能 够 匹配 原始 的 参数 ‘main () ，。 

static boolean matches(String regex,CharSequence text) 

这 个 static 方 法 返回 的 Boolean 值 表示 正则 表达 式 能 否 匹配 文本 (与 
matcher 方 法 的 参数 一 样 ， 可 以 是 一 个 String 或 者 任何 实现 CharSequence 
的 对 象 把 373) 。 其 实 ， 它 等 价 于 : 

Pattern.compile(regex).matcher(text).matches(); 

如 采 需 要 传递 编译 参数 ， 或 者 所 要 的 信息 不 只 是 简单 的 匹配 是 否 
成 功 ， 则 应 该 使 用 之 前 介绍 的 办 法 。 

如 果 这 个 方法 需要 多 次 调用 (例如 ， 在 循环 中 ,或 者 其 他 经 常 调 
用 的 代码 中 ) ， 预 先 把 正则 表达 式 编 译 为 一 个 Pattermm 对 象 ， 然 后 每 次 
应 用 的 效率 会 高 很 多 。 


Pattern 的 split 方 法 ， 单 个 参数 


Patter n's split Method,with One Argument 

String[] split(CharSequence text) 

pattern 的 这 个 方法 接收 文本 〈 一 个 CharSequence 对 象 ) ， 然 后 返回 
一 个 数组 ， 包 含 由 这 个 pattern 对 应 的 正则 表达 式 在 其 中 的 匹配 分 隔 的 
文本 。String 类 的 split 方 法 也 提供 了 同样 的 功能 。 

String[] result=Pattern.compile( " \\. " ).split( * 209.204.146.22 " ); 

返回 4 个 字符 串 构 成 的 数组 (209 ` ‘204’ ` 147022) ， 由 文 
本 中 的 三 个 \, 分 隔 。 这 个 简单 例子 只 用 单个 字符 分 隔 ， 但 其 实 我 们 
可 以 使 用 任何 正则 表达 式 。 例 如 ， 你 可 以 用 非 字 母 和 数字 的 字符 把 一 
个 字符 串 粗略 地 分 为 “单词 ”: 

String[] result=Pattern.compile( " \W+ " ).split(Text); 

如 果 给 出 的 字符 串 是 whatuspRoDpoc ， 则 返回 4 个 字符 串 

(‘what ` ‘s` ‘up’ > Doc’) ， 由 这 个 表达 式 的 3 次 匹配 (如 果 包 含 

JE ASCI 文本 ， 你 可 能 需要 使 用 \P{L}+ | 或 『[Ap{fLjpftN} ] 而 不 
fe '\W+, 367) 分 隔 。 

相 邻 匹配 之 间 的 空 元 素 

如 果 正 则 表达 式 能 够 在 文本 的 最 开头 匹配 ， 返 回 数组 的 第 一 个 元 
素 应 该 是 空 字 符 串 〈 这 是 一 个 合法 的 字符 串 ， 但 是 不 包括 任何 字 

) 。 同 样 ， 如 有 果 正 则 表达 式 能 够 在 某 个 位 置 匹配 两 次 以 上 ， 应 该 返 

回 空 字符 串 ， 因 为 邻近 的 匹配 “分 制 ” 了 和 零 长 度 的 文本 。 例 如 ; 
String[] result=Pattern.compile (" \\s*, \\s* " ) .split (" 
one, two, , , 3") ; RWJ Reh ME ASP SRDS, ik 
回 一 个 5 个 元 素 的 数组 : TFR ` ‘one’ » ‘two’ > WAS 2 fF E 
和 ‘3’。 

序列 末尾 出 现 的 所 有 空 字 符 串 都 会 被 忽略 : 

String[] result=Pattern.compile( " : " ).split(" :xx: " ); 

这 样 会 得 到 两 个 字符 串 : 一 个 空 字符 串 和 ‘xx”。 如 果 和 希望 保留 这 
些 元 素 ， 请 使 用 下 面 介绍 的 双 参 数 版 本 的 split 。 


Pattern 的 split 方 法 ， 两 个 参数 


Pattern's split Method,with Two Arguments 

String[] split(CharSequence text, int limit) 

这 个 版 本 的 split 方 法 能 够 控制 pattern 应 用 的 次 数 ， 以 及 结尾 部 分 可 
能 出 现 的 空 元 素 的 处 理 策 略 。String 类 的 split 方 法 也 可 以 获得 同样 效 
果 。 

limit 参 数 等 于 0， 大 于 0， 还 是 小 于 0， 各 有 意义 。 


limit 小 于 0 
如 采 limit 小 于 0， 束 会 保留 数组 结尾 的 空 元素 。 
String[] result=Pattern.compile( " : " ).split( " :xx: " ,-1); 


返回 包含 3 个 字符 串 的 数组 (一 个 空 字 符 串 ，‘xx*， 然 后 是 男 一 个 
空 字 符 串 ) 。 
limit 等 于 0 
把 limit 设 置 为 0， 等 于 不 设置 limit， 所 以 不 会 保留 结尾 的 空 元 素 。 
limit 大 于 0 
如 果 limit 大 于 0， 则 split 返 回 的 数组 最 多 包括 limit 个 元 素 。 也 就 是 
说 ， 正 则 表达 式 至 多 会 应 用 limit-1 次 。 (如 果 limit=3， 则 需要 2 次 匹配 
来 分 割 3 个 字符 串 ) 。 
进行 limit-1 次 匹配 之 后 ， 匹 配 停止 ， 目 标 字 符 串 中 其 余 的 部 分 
(在 最 后 一 次 匹配 之 后 的 文本 ) 会 作为 结果 数组 的 尾 元 素 。 
如 果 某 个 字符 串 如 下 : 
Friedl, Jeffrey,Eric Francis, America,Ohio,Rootstown 
并 且 和 希望 得 到 头 三 个 部 分 ， 你 可 以 将 字符 串 分 割 为 4 个 部 分 (43 
个 部 分 是 名 字 ， 然 后 是 最 后 的 “其 他 ”字符 串 ) : 
String[] NameInfo = Pattern.compile(",") .split (Text, 4); 
// NameInfo[(0)## 
// NameInfo[(1)# 4 
// NameInfo[2] 是 中 名 (这 里 中 名 包括 两 个 词 ) 
// NameInfo[3] 是 其 他 部 分 ， 因 为 这 里 没 用 ， 直 接 忽略 


为 split 设 置 limit 的 理由 在 于 ， 如 采 不 需要 更 多 地 处 理 ， 它 可 以 用 来 
停止 查找 其 他 的 字符 串 、 创 建新 字符 串 ， 限 制 数组 的 长 度 ， 提 高 效 
率 。 提 供 limit 能 够 限制 工作 量 。 


拓展 示例 


Additional Examples 


为 Image Tag 添 加 宽度 和 高 度 属性 


Adding Width and Height Attributes to Image Tags 

这 里 给 出 个 高 级 的 例子 ， 原 地 (in-place) AM, BH 
HTML, ， 保 证 所 有 的 image tag 都 包含 WIDTH 和 HEIGHT 属 性 (HTML 
须 是 StringBuilder、StringBuffer， 或 者 其 他 CharSequence) 。 

只 要 有 一 副 图 像 没 有 规定 宽度 或 者 高 度 ， 就 可 能 降低 整个 页 面 的 
装载 速度 ， 因 为 浏 贤 器 在 显示 这 幅 图 像 之 前 必须 读 入 整个 文件 。 如 果 
包含 了 宽度 和 高 度 的 尺寸 ， 文 本 和 其 他 元 素 束 可 以 立刻 正确 摆 放 ， 这 
样 用 户 会 感觉 页 面 读 取 速 度 更 快 EB) 。 

如 果 找 到 image tag， 程 序 会 寻找 SRC、WIDTH 和 HEIGHT 属 性 ， 如 
果 存 在 ， 提 取 他 们 的 值 。 如 果 WIDTH 和 HEIGHT 有 一 个 不 存在 ， 就 先 
取 回 图 像 ， 计 算 尺寸 ， 然 后 补充 上 属性 。 如 果 WIDTH 和 HEIGHT 都 没 
有 ， 就 按照 图 像 的 真实 尺寸 来 设置 这 些 属性 。 如 果 存 在 一 个 ， 束 只 需 
要 算出 另 一 个 属性 ， 它 的 值 是 按 比例 计算 出 来 的 例如， 如 果 WIDTH 
是 真实 尺寸 的 一 半 ， 则 添加 的 HEIGHT 的 值 也 是 真实 高 度 的 一 半 ; 现代 
的 浏览 器 就 是 这 样 处 理 的 ) 。 和 第 383 页 的 代码 一 样 ， 这 个 程序 手动 维 
护 匹 配 指 针 。 它 还 使 用 了 检索 范围 (384) 和 方法 链 (5389) 。 代 码 
如 下 : 


// 匹配 独立 的 cimg> tags 
Matcher mImg = Pattern.compile("(?id)<IMG\\s+(.*?)/?>") ,matcher (html); 
// GRRL) tag PH SRC, WIDTH fe HEIGHT 属性 (所 用 的 表达 式 很 简单) 
Matcher mSre = Pattern.compile("(?ix)\\bSRC =(\\S+)").matcher (html); 
Matcher mWidth = Pattern. compile ("(?ix) \\bWIDTH =(\\S+)") .matcher (html); 
Matcher mHeight= Pattern.compile ("(?ix) \\bHEIGHT=(\\S+)") .matcher (html); 
int imgMatchPointer = 0; // hikt kM FAE ada HP 
while (mImg.find(imgMatchPointer) ) 
{ 
imgMatchPointer = mImg.end(); // 下 一 次 查找 从 这 里 开始 
// 在 刚刚 找到 的 tag PERSE 
Boolean hasSre = mSrc.reqion( mImg.start(1), mImg.end(1) ).find(); 
Boolean hasHeight = mHeight.region( mImg.start(1), mImg,end(1) ).find(); 
Boolean hasWidth = mWidth.region( mImg.start(1), mImg.end(1) ).find(); 
// 扣 果 提供 了 SRC AIE, RRA WIDTH fo/A HEIGHT ... 
if ( hasSrc gs (! hasWidth || ! hasHeight)) 
{ 
java.awt,image,Bufferedimage i = //fRBR 
javax.imageio.ImageIO.read(new java.net.URL(mSre.group(1))); 
String size; // AKASH WIDTH 和 /或 HEIGHT Bit 
if (hasWidth) 
/1 得 到 了 width、 根据 比例 计算 height 
size= “height='" + (int) (Integer.parseInt (mWidth.group(1)) * 
i.getHeight() / i.getWidth()) + "' "; 
else if (hasHeight) 
// BHT height, Wiet aithe width 
size="width='"" + (int) (Integer.parseInt (mHeight.group(1)) * 
i.getWidth() / i.getHeight()) + "' "; 
else // 两 个 属性 都 没 提供 ， 按 实际 情况 处 理 
size = "width='" + i.getWidth() + "' " + 
"height='"" + i.getHeight() + "' "; 
html.insert (mImg.start (1), size); // 原 地 修改 HTML 
imgMatchPointer += size.length(); // 更 新 匹配 指针 
} 
} 


尽管 这 例子 很 有 教育 意义 ， 但 还 是 有 少数 地 方 没 考虑 到 。 因 为 这 
个 例子 的 重点 在 于 本 地 查找 和 替换 ， 尽 可 能 地 简化 了 其 他 方面 ， 对 需 
要 处 理 的 HTML 进 行 了 理想 的 假设 。 例 如 ， 正 则 表达 式 不 容许 属性 的 等 
号 两 边 出 现 空 白 ， 属 性 中 不 会 出 现 引号 (参考 第 202 页 的 Perl 正 则 表达 


式 ， 可 以 得 到 有 实际 意义 的 ，Java 版 本 的 tag 属 性 匹配 的 办 法 ) 。 这 个 
程序 不 能 处 理 相 对 URL ， 也 不 能 处 理 格 式 错误 的 URL， 也 不 能 处 理 获 
取 图 像 的 代码 抛 出 的 任何 异 第 。 

不 过 ， 这 个 例子 仍然 说 明了 几 个 重要 的 概念 。 


对 于 每 个 Matcher， 使 用 多 个 Pattern 校 验 HTML 


Validating HTML with Multiple Patterns Per Matcher 

我 们 也 可 以 用 Java 来 写 校 验 简单 HTML 的 程序 (132) 。 这 上段 代 
码 通 过 usePattern 方 法 实时 更 换 Matcher 的 pattem。 这样 能 够 处 理 多 个 以 
\G, 开头 的 pattermm ， 进 行 对 应 的 操作 。 请 参考 第 132 页 的 内 容 了 解 此 方 
法 的 更 多 细 广 。 


Pattern pAtEnd 
Pattern pWord 
Pattern pNonHtml 
Pattern pImgTag 
Pattern pLink 
Pattern pLinkXx 
Pattern pEntity 


Pattern.compile("\\G\\z"); 
Pattern.compile("\\G\\w+"); 
Pattern.compile("\\G[*\\w<>s]+") ; 
Pattern,compile("\\G(?i)<img\\s+([*>]+)>"); 
Pattern.compile("\\G(?i)<A\\st+([*>]+)>"); 
Pattern.compile("\\G(?i)</A>"); 

Pattern. compile ("\\Ga (#\\d+;\\wt) 7"); 


ouu#huyw ht @ 项 


Boolean needClose = false; 
Matcher m = pAtEnd.matcher (html); // #4 Pattern 对 象 都 能 生成 Matcher th 
while (! m.usePattern(pAtEnd) .find()) 
{ 

if (m,usePattern(pWord).find()) 1 

. mgroup() 包含 一 个 单词 或 数值 ， 可 以 进行 对 应 的 检查 

} else if (m.usePattern(pImgTag).find()) { 
.+» GM image tag, RELTA... 
else if (! needClose && m.usePattern(pLink).find()) | 
ee Ma, Bik... 
needClose = true; 
else if (needClose && m,usePattern(pLinkX).find()) { 
System.out.println("/LINK [" + m.group() + "]"); 
needClose = false; 
else if (m.usePattern(pEntity).find()) { 
// 容许 出 现 &Gt; 64123; 24t entity 
else if (m.usePattern(pNonHtml).find()) { 
// Rif LE eae E Oh 4p HTML 代码 
else { 
// REAKER, HEETE, Attini tF A TAHI 
m.usePattern (Pattern.compile("\\G(?s).{1,12}")).find(); 
System.out.println("Bad char before '" + m.group() + "'"); 
System.exit (1); 
} 


~— 


~ 一 


一 -一 


— 


~~ 


} 

if (needClose) | 
System, out.println("Missing Final </A>"); 
System.exit (1); 

} 


因为 java.utilregex 的 bug， 非 HIML 的 匹配 党 试 即使 不 成 功 ， 仍 然 
会 “占用 ”目标 字符 串 中 的 一 个 字符 ， 所 以 我 把 这 段 程序 放 在 最 后 。 这 


个 bug 仍然 存在 ， 只 是 表现 为 错误 和 输出 中 缺少 第 一 个 字符 。 我 已 经 把 
这 个 bug 提 区 给 Sun 。 

此 bug 没 有 修正 之 前 ， 该 如 何 使 用 单个 参数 的 find 方 法 来 解决 此 问 
AVE? w 请 翻 到 下 页 查看 答案 。 


在 单个 参数 的 find0 中 使 用 多 个 Pattern 


o 第 399 页 问题 的 答案 


在 第 399 页 的 程序 中 ,java.util.regex 错误 地 设置 了 matcher 的 “当前 位 置 "， 所 以 
下 一 次 查找 会 从 错 谋 的 位 置 开始 。 我 们 可 以 嫉 过 这 个 bug， 自 己 记录 “当前 位 置 "， 使 
用 单个 参数 的 find 从 此 位 置 开始 查找 。 


Pattern pWord 
Pattern pNonHtml 
Pattern pImgTa 
Pattern pLink 
Pattern pLinkX 


Pattern.compile("\\G\\wt") ; 
Pattern,compile("\\G[*\\w<>&]+"); 
Pattern,compile("\\G(?7i)<img\\s+((*>]+) >"); 
Pattern,compile("\\G(?i)<A\\s+([*>]+) >"); 
Pattern.compile("\\G(?i) </A>"); 
Pattern pEntity Pattern,compile ("\\Gs (#\\d+|\\w+) 7")? 
Boolean needClose false; 
Matcher m = pWord.matcher (html); // #4. Pattern 对 象 都 能 生成 Matcher sR 
Integer currentLoc = 0; 
while (currentLoc < html.length()) 
{ 
if (m.usePattern (pWord) .find(currentLoc)) | 
-+. M.group() @S—S#MARE, THT ees 
} else if (m.usePattern(piImgTag).find(currentLoc)) | 

-.. 包含 image tag， 检 查 是 否 合适 ... 

else if (! needClose 55 m.usePattern(pLink).find(currentLoc)) { 

--- MASA, Mik... 

needClose = true; 

else if (needClose && m,usePattern(pLinkX) .find(currentLoc)) 1 

System,out.printin("/LINK [" + m.group() + "]"); 

needClose = false; 

else if (m.usePattern(pEntity) .find(ecurrentLoc)) | 

// Si Mage; #44123; 28 tj entity 

else if (m.usePattern(pNonHtm1).find(currentLoc)) | 

1/ Sih MS eae HTML 代码 

else 1 

// 完全 无 法 匹配 ， 肖 定 出 了 错 ， 在 此 处 选取 一 段 文字 用 于 错误 输出 

m.usePattern (Pattern.compile("\\G(?s).{1,12)")) .find(currentLoc) ; 

System.out.println ("Bad char at '" + m.group() + "'"); 

System.exit (1); 


村 


} 
currentLoc = mend (); // “SABE” HQOLAR MHL 
} 
if (needClose) { 
System.out.printin("Missing Final </A>"); 
System.exit (1); 
} 


与 之 前 的 程序 不 同 , 这 里 调用 find 时 指定 了 检索 的 开始 偏 移 值 ,所 以 不 必 指定 region. 
不 过 ， 你 可 以 自己 维护 这 个 region， 在 每 次 Eind 之 前 恰当 地 调用 region, 


m.usePattern (pWord) .region (start, end) .find(currentLoc) 


解析 CSV 文 档 


Parsing Comma-Separated Values (CSV) Text 

这 里 是 用 java.util.regex 写 的 解析 CSV 的 例子 (参见 第 6 Be 
271) 。 这 里 的 程序 使 用 占有 优先 量词 (142) 取代 固化 分 组 ， 因 为 
这 样 看 起 来 更 清楚 。 


String regex = // 双 引 号 字段 保存 到 group(1), FFRAE] group (2) 


© WAGE Ia) \n"+ 
i r- \n"+ 
ELAMIST \n"+ 
8 \" 二 开头 双 引 号 \n"+ 
i 和 \n"+ 
i \" 4 ARRIS \n"+ 
" $ vee ARE ous Wn 

pA, aR... \n4 
Ni 0 a a \n"+ 


h } Vm 
// ELDARA matcher, MEYA CSV LH 
Matcher mMain = Pattern.compile{(regex, Pattern.COMMENTS) .matcher (line); 
// 基建 区 配 "wj 的 matcher， 目 标 文本 暂时 为 虞 构 


Matcher mQuote = Pattern.compile("\"\"") .matcher(""); 


while (mMain.find({) ) 
| 
String field; 
1f (mMain.start(2) >= D) 
field = mMain.group(2); // 非 引号 字段 ， 直 接 使 用 
else 
/1 AFR, ARS SR a] 


field = mQuote. reset (mMain.group(1)).replaceAll("\"")} 


l! 现在 处 理 字段 的 内 容 ... 
System.out.println("Field [" + field + "]"); 
| 
这 个 程序 比 第 217 页 的 原始 程序 效率 要 高 很 多 ， 原 因 在 于 : 正则 表 
达 式 效率 更 高 ， 按 照 第 6 章 第 271 页 介绍 的 办 法 ， 重 复 使 用 单个 Matcher 
(通过 单个 参数 版 本 的 reset 方 法 ， 而 没有 不 断 创建 -回收 Mather 。 


Java 版 本 差异 


Java Version Differences 
本 章 开头 已 经 提 到 ， 本 书 主要 针对 Java 1.5.0。 不 过 ， 目 前 Java 
1.4.2 仍 然 在 广泛 应 用 ， 而 Java 1.6 已 经 整装待发 (已 经 发 布 了 beta 版 ， 
但 不 会 很 快 发 布 正 式 版 ) 。 所 以 ， 我 得 简要 地 提 一 下 1.4.2 和 1.5.0 
(Update 7) 之 间 的 差异 ， 以 及 1.5.0 和 目前 的 1.6“build 59g” 的 差异 。 


1.4.2 和 1.5.0 之 间 的 差异 


Differences Between 1.4.2 and 1.5.0 

相对 Java 1.4.2, Java 1.5.0 添 加 了 许多 新 的 方法 。 大 多 数 新 的 方法 
主要 是 为 了 文 持 Matcher 的 检索 范围 。 此 外 ，Unicode 文 持 也 升级 并 提 
高 了 效率 。 所 有 的 变化 都 在 下 面 两 节 详 细 介绍 GEO) 。 

1.5.0 中 的 新 方法 

与 检索 范围 相关 的 Matcher 方 法 都 没有 出 现在 Java 1.4.27: 


eregion 


eregionStart 
eregionEnd 
euseAnchoringBounds 
ehasAnchoringBounds 
euseTransparentBounds 
ehasTransparentBounds 
Java 1.4.2 也 不 包含 下 面 的 方法 ; 
etoMatchResult 
ehitEnd 

erequireEnd 
eusePattern 


etoString 


Java 1.4.2 不 包含 下 面 这 个 static 方 法 : 
e Pattern.quote 


1.4.2 和 1.5.0 关 于 Unicode 支 持 的 差异 

1.4.2 和 1.5.0 在 Unicode 相 关 的 问题 上 有 这 些 变化 : 

eJava 1.4.2 的 Unicode 使 用 的 是 Unicode Version 3.0.0，1.5.0 使 用 的 
是 Unicode Version 4.0.0。 这 个 改变 影响 到 很 多 方面 ， 例 如 字符 的 定义 

(例如 ， 在 Version 3.0.0 中 ，\uFFFF 之 后 是 没有 代码 点 的 ) ， 以 及 属性 

和 Unicode 区 块 的 定义 。 

。 增 强 了 通过 rp{.…} A NPL.) 引用 区 块 的 方式 (参加 Java 关 
于 Character.UnicodeBlock 的 文档 ， 得 到 区 块 列表 及 其 正式 名 称 ) 。 

Java 1.4.2 中 的 规则 是 “去 挥 官方 代码 块 名 字 中 的 空格 ， 和 开头 的 
n” > 人 这样 ， 区 块 引用 W 类 似 \p{InHangulJamo} 和 
\p{InArabicPresentationForms-A}° 

1.5.0 添加 了 两 种 新 的 区 块 命名 。 可 以 在 官方 块 名 称 之 前 直接 添 
加 mw , 所 以 名 字 可 以 为 \p{InHangul-Jamo} 和 
\p{InArabic:Presentation:Forms-A} ° 也 可 以 给 Java 的 区 块 标识 符 添 加 前 
级 ‘Im” (是 官方 名 称 ， 将 空格 和 连 字 符 替 换 为 下 画 线 ) 
\p{InHangul_Jamo} 和 和 \p{InArabic Presentation Forms A}° 

e Java 1.4.2 存 在 一 个 古怪 的 bug ，Arabic Presentation Forms-B 和 
Latin Extended-B 结尾 的 “B” 必 须 写 作 “Bound”， 也 就 是 说 
\p{InArabicPresentationForms-Bound} 和 \p{InLatinExtended-Bound} ° 

e Java 1.5.0 + Character 2 HY isSomeing 77 YE X FF LEM FETA TE (S 
369) ° 


1.5.0 和 1.6 之 间 的 差异 


Differences Between 1.5.0 and 1.6 

写作 本 书 时 已 经 发 布 的 1.6 和 1.5.0 在 正则 表达 式 的 问题 上 只 有 两 个 
细微 的 差别 : 

eJava 1.6 提 供 了 之 前 没有 的 对 Pi 和 Pf 的 Unicode 分 类 的 支持 。 


eNQ..AE, 结构 的 bug 已 经 修正 了 ， 所 以 在 字符 组 中 可 以 正常 工 
作 。 


第 9 章 .NET 


.NET 


Microsoft 的 .NET Framework 中 可 以 使 用 Visual Basic ` C 共和 C++ 

(以 及 其 他 许多 语言 ，.NET 提 供 了 公用 的 正则 表达 式 库 ， 统 一 了 不 

同 语言 之 间 的 正则 表达 式 语 意 。 它 的 引擎 特性 完备 ， 功 能 强大 ， 容 许 
我 们 在 速度 和 便利 之 间 求 得 最 大 的 均衡 ( 注 1) 。 

每 种 语言 在 处 理 对 象 和 方法 时 都 有 不 同 的 语意 ， 但 是 某 些 基本 的 
对 象 和 方法 在 所 有 语言 中 都 是 相通 的 ， 所 以 不 管 使 用 哪 种 语言 编写 的 
复杂 例子 ， 都 可 以 直接 转换 到 .NET 语 言 套 件 中 的 其 他 语言 中 。 本 章 中 
的 例子 使 用 Visual Basic。 

与 之 前 各 章 的 联系 在 开始 本 章 的 内 容 之 前 必须 说 明 ， 第 1 到 6 章 的 
基础 知识 对 理解 本 章 非 常 重要 。 我 猜测 ， 有 些 只 对 .NET 有 兴趣 的 读者 
可 能 会 从 本 章 开 始 阅 读 这 本 书 ， 我 希望 他 们 认真 地 读 一 读 前 言 (尤其 
是 体例 部 分 ) 和 前 面 的 章节 : 第 1、2、3 章 介 绍 了 与 正则 表达 式 相 关 
的 基本 概念 、 特 性 和 技术 ， 第 4、5、6 章 介 绍 了 一 些 理解 正则 表达 式 
的 关键 知识 ， 它 们 可 以 直接 应 用 到 .NET 的 正则 表达 式 中 。 前 几 章 讲解 
的 重要 概念 包括 NFA 引 擎 进行 匹配 的 基本 原理 、 匹 配 优先 性 、 回 溯 和 

接 下 来 要 强调 的 是 ， 除 了 用 于 速 查 列表 一 -例如 本 草 的 第 407 页， 
和 第 3 草 从 第 114 页 到 第 123 页 ， 我 并 不 硕 望 这 本 书 成 为 参考 手册 ， 而 硕 
望 它 成 为 精通 正则 表达 式 的 详细 教科 书 。 

本 章 首 移 介 绍 .NET 的 正则 流派 ， 包 括 元 字符 的 文 持 事 宜 ， 以 
及 .NET 程 序 员 必 须 面 对 的 特殊 问题 。 然 后 是 总 括 .NET 中 正则 表达 式 相 
天 的 对 象 模 型 ， 详 细 讲 解 大 于 核心 地 位 的 ， 与 正则 表达 式 相 关 的 类 。 
最 后 用 例子 来 说 明 ， 如 何 将 预先 构建 好 的 正则 表达 式 封 装 到 共享 的 装 
配件 (assembly) 中 ， 组 成 个 人 的 正则 表达 式 库 。 


.NET 的 正则 流派 


.NET's Regex Flavor 

.NET 使 用 的 是 传统 型 NFA 引 警 ， 所 以 第 4、5、6 章 讲解 的 NFA 的 知 
识 都 适用 于 .NET。 下 一 页 的 表 9-1 简 要 说 明了 .NET 的 正则 流派 ， 其 中 大 
部 分 已 经 在 第 3 章 介绍 过 。 

在 接收 正则 表达 式 的 函数 和 结构 中 设置 标志 位 (flag) ， 或 是 在 正 
则 表达 式 之 内 使 用 『 (? modes-modes) | #1 ' (? mods-mods: ...) ， 
结构 ， 可 以 使 用 不 同 的 匹配 模式 ， 流 派 的 许多 方面 也 会 因此 发 生变 化 

(F110) 。408 页 的 表 9-2 列 出 了 这 些 模式 。 

其 中 包括 了 ‘Ww, 之 类 的 “ 纯 * 转 义 。 它 们 可 以 直接 用 到 VB.NET 的 
字符 串 文字 ("w") ACH WM verbatim tR (@"\w") Poe 
C++ 的 语言 没有 提供 针对 正则 表达 式 的 字符 串 文 字 ， 所 以 正则 表达 式 中 
的 反 斜 线 在 字符 串 文 本 中 需要 双 写 ("w") 。 请 参考 “作为 正则 表达 
式 的 字符 串 ”( 呈 101) 

下 面 是 对 表 9-1 的 补充 说 明 : 

@\b 只 有 在 字符 组 内 部 才 作 为 退 格 符 。 在 字符 组 之 外 ，\b 匹 配 单词 
分 界 符 (F133) 

光 区 世 容 许 出 现 两 位 十 六 进 制 数字 ， 例 如 \xFCber | 匹配 iiiber”。 

Werte eA A AAA ARRA, GM \u00FCber| 匹 
fid‘iiber’, '\u20AC, EHE ‘e’ o 

@.NET Framework Version 2.0 中 的 字符 组 支持 集合 减法 ， 例 如 [a- 
z-[aeiou]] 表示 小 写 的 非 元 音 ASCII 字 和 母 (125) 。 在 字符 组 内 部 ， 连 
字符 之 后 又 跟着 字符 组 表示 字符 组 的 减法 运算 ， 减 去 后 面 字符 组 内 部 
的 字符 。 

@\w、\d 和 \s (以 及 对 应 的 W、\D 和 \S) 通常 能 处 理 所 有 合适 的 
Unicode 字 符 ， 但 是 如 果 启 用 了 RegexOptions.ECMAScript (412) ， 
就 只 能 处 理 ASCII 字 符 。 


在 此 默认 模式 下 ，\w 匹配 Unicode 属性 \p{Ll}、\p{Lu} ` \p{Lt} ` 
\p{Lo}、\p{Nd} 和 \p{Pc}。 请 注意 ， 其 中 并 没有 \p{Lm} (请 参考 第 123 
页 的 属性 列表 ) 。 


表 9-1: NET 正 则 表达 式 流派 概览 


字符 缩 略 表示 法 ” 


#115 (c) | \a [\b] \e \£ \n \r \t \v\octal \x## ut \echar 


字符 组 及 相关 结构 

wis PHa’: pel [Ae] (TeSRSi A125) 
119 几乎 任何 字符 : 点 号 (根据 模式 的 不 同 ， 有 各 种 含义 ) 
120 (c) 字 和 从 组 缩 略 表 示 法 "; \w \d \s \W \D \s 

#121 (c) Unicode 局 性 和 区 抉 "; \p{Prop} \P{Prop) 

锚 点 及 其 他 零 长 度 断 言 

* 129 行 /字符 囊 起 始 位 置 ， ^ N\A 

了 129 IFA RISE: $ \z \2 

+130 当前 区 配 的 起 始 位 置 ”; \G 

#133 单词 分 界 符 : \b \B 

"133 环视 结构 8，(?=…w) (21e) (?<=…) (Peter) 
注释 及 模式 修饰 符 

135 模式 修饰 件 ; (2mods-mods) 容许 出 现 的 模式 ; x 5 mi n (7408) 
T135 模式 修饰 范围 ; (?mods-mods:=) 

© 136 iit: (3?#…) 

分 组 及 捕获 

#137 撒 获 型 括号 (e) \1 2e 

7436 GARDE: (?<name-name>*) 

409 7h 4h RRM: (<name>) \k<name> 

#137 仅 分 组 的 括号 : (21) 

#139 固化 分 组 : (2>) 

139 Siete: | 

14] 匹配 优先 量词 : * +? {n} {n,} {x,y} 

F j4] 把 咯 优先 量词 : #2 +2 2? {n}? {n,}? {x,y}? 
#109 RPB: (2if then|else)y— “if” 部 分 可 以 是 环视 ， (num) X (name) 


(c) 


可 用 于 字符 组 内 部 O OLEN 


在 默认 模式 下 ，\s 匹 配 'T-\An\r\t\w\x85\p{Z}], , U+0085% Unicode 
中 的 NEXT LINE 控 制 字 符 ，\p{Z} 匹 配 Unicode 的 “分 隔 符 ”字符 ( 呈 
122) 

@\p{...} 和 \P{...} 支 持 标 准 的 Unicode 属 性 和 区 块 (针对 Unicode 
Version 4.0.1) 。 不 文 持 Unicode 字 母 表 。 

KRG BK UIs’ BAR (参考 第 125 页 的 表格 ) ， 只 能 够 使 用 合 
有 空格 或 者 下 画 线 的 格式 。 例 如 ，\p{Is_Greek_Extended} 和 \p{fIs Greek 
Extended} 是 不 容许 的 ， 正 确 的 只 有 \p{IsGreekExtended} ° 

.NET 只 支持 \p{Lu} 之 类 的 短 名 称 ， 而 不 支持 \p{Lowercase_Letter} 
之 类 的 长 名 称 。 单 字母 属性 也 要 求 使 用 花 括号 (也 就 是 说 ， 不 能 把 
\p{L}falic A\pL) 。 请 参考 第 122 和 第 123 页 的 表格 。 

NET 也 不 支持 特殊 的 复合 属性 \p{L&}， 以 及 特殊 属性 \p{All}、 
\p{Assigned} 和 \p{fUnassigned}。 相 反 ， 你 可 以 使 用 ' (2 s: .) | 
\P{Cn}, > '\p{Cn}, 分 别 来 代替 。 

G@NG 表 示 上 一 次 匹配 的 结束 位 置 ， 虽 然 文档 介绍 说 它 表 示 本 次 匹 
配 的 开头 位 置 (7130) 

© 顺序 环视 和 逆序 环视 中 都 可 以 使 用 任意 形式 的 正则 表达 式 。 就 
我 所 知 ，.NET 正 则 引 警 是 唯一 容许 在 逆序 环视 中 出 现 能 够 匹配 任意 长 
度 文本 表达 式 的 引 苟 (133) 

@ RegexOptions.ExplicitCapture 选 项 (也 可 通过 模式 修饰 符 (? 
nD RE) 会 禁止 普通 的 ”(...) | 括号 的 捕获 功能 。 不 过 明确 命名 的 
捕获 型 括号 一 一 例如 (2? <num>\d+) | 一 一 仍然 有 效 (7138) 

如 果 使 用 了 命名 分 组 ， 此 选项 容许 你 使 用 更 加 美观 的 ” (...) ，， 而 不 
fel (2: ...) | ， 来 进行 纯粹 的 分 组 。 
表 9-2: NET 的 匹配 模式 和 正则 表达 式 模式 


RegexOptions 选项 (?mode) | 说 明 


.Singleline 点 号 能 匹配 任何 字符 (7111) 
„Multiline PRtsa (7111) 


.IgnorePatternWhitespace TLE EAE Fo zg HX (772) 


. IgnoreCase 进行 不 区 分 大 小 写 的 匹配 

,ExplicitCapture n 关闭 (…)) 的 捕获 功能 , 只 有 '(?<name>…) 1 能 
of AR (7412) 

„ECMAScript | | RANA \sife!\ aR af ASCI PENA (7412) 

«RightToLeft 传动 装置 的 驱动 过 程 不 变 ， 但 是 方向 相反 (MF 
符 囊 的 末 昆 开始 ， 向 开头 移动 ) ， 不 幸 的 是 这 个 
选项 会 有 问题 (7411) 

‘Compiled 多 花 些 时 间 优 化 正则 表达 式 ， 这 样 应 用 时 匹配 更 
Rik (7410) 

对 于 流派 的 补充 


Additional Comments on the Flavor 
下 面 介 绍 一 些 其 他 的 相关 细 市 。 
命名 捕获 
.NET 支 持 命名 捕获 (138) ， 它 通过 '”(? <name>...) | 或 是 
(? mame'...) | 实现 。 这 两 种 办 法 是 等 价 的 ， 可 以 随意 选用 其 中 一 
种 ， 不 过 我 更 喜欢 <... > ， 因 为 我 相信 使 用 它 的 人 多 一 些 。 

要 反 向 引用 命名 捕获 匹配 的 文本 ， 可 以 使 用 'k<name> | 或 是 
‘\k'name' | 2 

在 匹配 之 后 (也 就 是 Match 对 象 生 成 之 后 ;下文 从 第 416 页 开始 概 
要 介绍 .NET 的 对 象 模 型 ) ， 命名 捕获 匹配 的 文本 可 以 通过 Match 对 象 
的 Groups (name) 属性 来 访问 ee o 

在 replacement 字 符 串 中 (424) ， 命 名 捕获 的 结 过 ${name} 
来 访问 。 


某 些 情况 下 ， 可 能 需要 按 数字 顺序 访问 所 有 的 分 组 ， 所 以 命名 捕 
获 的 分 组 也 会 被 标 上 序号 。 它 们 的 编号 从 所 有 未 命名 的 分 组 之 后 开 
始 : 

113 32 2 
'(\w) (?<Num>\d+) (\s+) | 

本 例 中 ， 我 们 可 以 用 Groups ("Num") 或 Groups (3) 来 访问 
\d+, 匹配 的 文本 。 这 两 个 名 字 对 应 同一 个 分 组 。 

不 幸 的 结果 

一 般 情 况 下 不 应 该 把 正常 的 捕获 型 括号 和 命名 捕获 混合 起 来 ， 不 
过 如 果 你 这 样 做 了 ， 就 必须 彻底 理解 捕获 分 组 的 编号 顺序 。 如 果 捕 获 
型 括号 用 于 Split (425) ， 或 者 在 replacement 字 符 串 中 使 用 了 ‘$+? (œ 
424) ， 编 号 就 很 重要 。 

条 件 测试 

如 果 ”(? ifthenlelse) ， 中 的 if 部 分 (140) 可 以 使 用 任意 类 型 的 
环视 结构 ， 也 可 以 在 括号 中 使 用 捕获 分 组 的 编号 ， 或 者 是 命名 分 组 的 
名 字 。 这 里 出 现 的 纯 文本 (或 者 纯正 则 表达 式 ) 会 被 自动 当 作 肯定 型 
顺序 环视 来 处 理 (也 就 是 说 ， 可 以 将 其 看 作 ”(? =...) | 包围 的 结 
H) 。 这 可 能 带 来 麻烦 : 例如 ，'... (? (Num) thenlelse) ... | 中 的 
| (Num) , 会 变 为 '(? =Num) ， (也 就 是 顺序 环视 的 'Num') ， 如 
果 在 正则 表达 式 的 其 他 地 方 没有 出 现 ”(? <Num>...) | 时 会 这 样 。 
如 果 存 在 这 样 的 命名 捕获 ，if 浏 断 的 就 是 它 是 否 捕获 成 功 。 

我 推荐 不 要 依赖 这 种 “自动 化 顺序 环视 ( auto- 
lookaheadfication) ”而 明确 使 用 ”(? =...) ， 把 意图 传达 给 看 程序 的 
人 人， 这样 如 果 正 则 引擎 在 未 来 修改 了 if 语 法 ， 也 不 会 带 来 意外 。 

“编译 好 的 ”正则 表达 式 

在 前 面 几 章 ， 我 使 用 “编译 (compile) ”这 个 词 来 描述 所 有 正则 表 
达 式 系统 中 ， 在 应 用 正则 表达 式 之 前 必须 做 的 准备 工作 ， 它 们 用 来 检 
得 正则 表达 式 是 否 格式 规范 ， 并 将 其 转换 为 能 够 实际 应 用 的 内 部 形 
式 。 在 .NET 的 正则 表达 式 中 ， 它 的 术语 是 “解析 (parsing) ”。.NET 使 
用 两 种 意义 的 “编译 ”来 指 涉 解析 阶段 的 优化 。 


Bet ERAN ZT : 
e 解 析 (Parsing) 程序 在 执行 过 程 中 ， 第 一 次 遇 到 正则 表达 式 时 必 
须 检 查 它 是 否 格式 规范 ， 并 将 其 转换 为 适 于 正则 引擎 实际 应 用 的 内 部 
形式 。 此 过 程 在 本 书 的 其 他 部 分 称 为 “编译 (compile) ” 
e 即 用 即 编译 (On-the-Fly Compilation) 在 构建 正则 表达 式 时 ， 可 
以 指定 RegexOptions.Compiled 选 项 。 它 告诉 正则 3 引擎， 要 做 的 不 仪 是 
此 表达 式 转 换 为 某 种 默认 的 内 部 形式 ， 而 是 编译 为 底层 的 MSIL 
(Microsoft Intermediate Language) 代码 ， 在 正则 表达 式 实际 应 用 时 ， 
可 以 由 JIT (“Just-In-Time” 编 译 器 ) 优化 为 更 快 的 本 地 机 器 代码 。 
这 样 做 需要 花费 更 多 的 时 间 和 空间 ， 但 这 样 得 到 的 正则 表达 式 速 
度 更 快 。 本 和 之 后 会 讨论 这 样 的 权衡 。 
e 预 编译 的 正则 表达 式 一 个 (或 多 个 ) Regex 对 象 能 够 封装 到 DLL 
(Dynamically Loaded Library， 例 如 共享 的 库 文件 ) 中 ， 保 存在 磁盘 
上 。 这 样 其 他 的 程序 也 可 以 直接 调用 它 。 称 为 “编译 装配 件 
(assembly) ”。 请 参考 “正则 表达 式 装 配件 ”(434) 获得 更 多 信息 。 
如 果 使 用 RegexOptions.Compiled 来 进行 “ 即 用 即 编译 ”的 编译 ， 在 局 
动 速度 ， 持 续 内 存 占 用 和 匹配 速度 之 间 ， 存 在 此 消 彼 长 的 关系 : 


不 使 用 RegexOptions.Compiled 


使 用 RegexOptions.Compiled 
较 慢 (最 多 提升 60 倍 ) 

内 存 占 用 多 (每 个 表达 式 占用 5-15KB) 
匹配 速度 最 多 能 提升 10 18 


在 程序 第 一 次 遇 到 正则 表达 式 时 进行 初始 的 正则 表达 式 解 析 〈 默 
认 情 况 ， 即 不 用 RegexOp-tions.Compiled) 相对 来 说 是 很 快 的 。 即 使 在 
我 这 人 台 有 年 头 的 550MHz NT 的 机 器 上 ， 每 秒 钟 也 能 进行 大 约 1 500 次 复 
杂 编 译 。 如 果 使 用 RegexOptions.Compiled， 则 速度 下 降 到 每 秒 25 次 ， 
每 个 正则 表达 式 需 要 多 占用 大 约 10KB 内 存 。 

更 重要 的 是 ， 在 程序 的 执行 过 程 中 ， 这 块 内 存 会 一 直 占 用 一 一 它 
无 法 释放 。 

在 对 时 间 要 求 不 严格 的 场合 使 用 RegexOptions.Compiled 无 疑 是 很 
有 意义 的 ， 在 这 里 ， 速 度 是 很 重要 的 ， 尤 其 是 需要 处 理 大 量 的 文本 时 


局 动 速 度 


更 是 如 此 。 另 一 方面 ， 如 果 正 则 表达 式 很 简单 ， 需 要 处 理 的 文本 也 不 
是 很 多 ， 这 样 做 就 没有 和 意义。 如果 情 况 不 是 这 样 黑白 分 明 ， 该 如 何 选 
择 束 不 那么 容易 了 一 一 必须 具体 情况 具体 分 析 ， 以 进行 取舍 。 

某 些 情况 下 ， 把 编译 的 正则 表达 式 作 为 “编译 好 的 ”正则 对 象 封装 
到 DLL 中 是 很 有 价值 的 。 最 终 的 程序 所 占 的 内 存 更 少 (因为 不 必 装 载 
编译 正则 表达 式 所 需 的 包 ) ， 装 载 速度 更 快 (因为 在 DLL 生成 时 它们 
已 经 编译 好 了 ， 只 需要 直接 使 用 即 可 ) 。 另 一 个 不 错 的 副产品 就 是 ， 
表达 式 还 可 以 供 其 他 需要 的 程序 使 用 ， 所 以 这 是 一 种 组 建 个 人 正则 表 
达 式 库 的 好 办 法 。 请 参考 第 435 页 的 “使 用 装配 件 构建 自己 的 正则 表达 
IUE” ° 

从 右 向 左 的 匹配 

长 期 以 来 ， 正 则 表达 式 的 开发 人 员 一 直 呐 饥 着 “反问 
(backwards) ”匹配 〈 即 从 右 向 左 ， 而 不 是 从 左 向 右 ) 。 对 开发 人 员 来 
说 ， 最 大 的 问题 可 能 是 ,“ 从 右 向 左 * 的 匹配 到 底 是 什么 意思 ? 是 整个 
正则 表达 式 都 需要 反 过 来 吗 ? 还 是 说 ， 这 个 正则 表达 式 仍然 在 目标 字 
符 串 中 进行 尝试 ， 只 是 传动 装置 从 结尾 开始 ， 驱 动 过 程 从 右 辣 左 进 
人 

抛 开 这 些 纯粹 的 概念 ， 看 个 具体 的 例子 : 用 \d+ ,匹配 字符 
串 '123.and.456:。 我 们 知道 正常 情况 下 结果 是 "123:， 根 据 直 觉 ， 从 右 回 
碟 匹 配 的 结果 应 该 是 “456:。 不 过 ， 如 果 正 则 引擎 使 用 的 规则 是 ， 从 字 
符 串 末尾 开始 ， 驱 动 过 程 从 左 同 右 进 行 ， 结 果 可 能 就 会 出 平 意 料 。 在 
某 些 语意 下 ， 正 则 引擎 能 够 正常 工作 〈 从 开始 的 位 置 向 右 “ 看 >) ， 所 
以 第 一 次 尝试 \d+ | 是 在 “456,，， 这 里 无 法 匹配 。 第 二 次 尝试 在 
…45.6”， 这 里 能 够 匹配 ， 所 以 驱动 过 程 开始 “考察 ”位 置 "6'， 这 当然 
可 以 匹配 \d+， ， 所 以 最 后 的 结果 是 “6 。 

.NET 的 正则 表达 式 提供 了 RegexOptions.RightToLeft 的 选项 。 但 它 
究竟 是 什么 意义 昵 ? SRE: “这 问题 值得 思索 。” 它 的 语意 没有 文 
档 ， 我 测试 了 也 无 法 找到 规律 。 在 许多 情况 下 例如 ‘123:and456’, 
它 给 出 符合 直觉 的 结果 (也 就 是 ‘456’) 。 

不 过 ， 有 时 候 也 会 报告 没有 匹配 结果 ， 或 是 匹配 跟 其 他 结果 相 比 
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如 有 果 需 要 进行 从 右 同 左 的 匹配 ， 你 可 能 会 发 现 ， 
RegexOptions.RightToLeft 似乎 能 得 到 你 期 望 的 结果 ， 但 是 最 后 ， 你 会 
发 现 这 样 做 得 冒 风 险 。 

反 斜 线 -数字 的 二 义 性 

数字 跟 在 反 笠 线 之 后 ， 可 能 表示 十 进 制 数 的 转 义 ， 也 可 能 是 反 回 
S| x °c fF) Ew Kaw ae, RAT e& eee ys 
RegexOptions.ECMAScript 选 项 。 如 果 你 不 关心 其 中 的 细微 差别 ， 不 妨 
—BA\k<num>, 表示 反 向 引用 ， 或 者 在 表示 十 进 制 数 时 以 0 开头 

(例如 '\08, ) 。 这 两 种 办 法 不 受 RegexOptions.ECMAScript 的 影响 。 

如 果 没 有 使 用 RegexOptions.ECMASCript， 从 “\1 到 '\9, 的 单个 
转 义 数字 通常 代表 反 同 引用 ， 而 以 0 开头 的 转 义 数字 通常 代表 十 进 制 
转 义 (例如 ， '\012, 匹配 ASCII 的 进 纸 符 linefeed) ， 除 此 之 外 的 所 有 
情况 下 ， 如 有 果 “ 有 意义 ”( 也 就 是 说 某 个 正则 表达 式 中 有 足够 多 的 捕获 
型 括号 ) ， 数 字 都 会 被 作为 反 癌 引用 来 处 理 。 否 则 ， 如 果 数 字 的 值 处 
于 \000 和 和 \377 之 间 ， 束 作为 十 进 制 转 义 。 例 如 ， 如 果 捕 获 型 括号 的 数目 
多 于 12， 则 "\12 会 作为 反 向 引用 ， 否 则 就 会 作为 十 进 制 数字 。 

下 一 节 详 细 讲 解 RegexOptions.ECMAScript 的 语意 。 

ECMAScript 模 式 

ECMAScript 的 基础 是 一 种 标准 版 本 的 JavaScript ( 注 2) ， 还 包 
了 它 自 己 的 解析 和 应 用 正则 表达 式 的 语意 。 如 有 果 使 
RegexOptions.ECMAScript 选项 ，.NET 的 正则 表达 式 就 会 模拟 这 些 
意 。 如 有 果 你 不 明白 ECMASCript 的 含义 ， 或 者 不 需要 兼容 它 ， 束 完全 
以 忽略 该 人 。 

如 果 启 用 了 RegexOptions.ECMASCript， 将 会 应 用 下 面 的 规则 : 

eRegexOptions.ECMAScript 只 能 与 下 面 的 选项 同时 使 用 : 

RegexOptions.IgnoreCase 


RegexOptions.Multiline 
RegexOptions.Compiled 


e\w > \d>\s>\W>\D 、\S 只 能 匹配 ASCII 字 符 。 


= 
FA 
语 
A] 


e 正 则 表达 式 中 的 反 斜 线 -数字 的 序列 不 会 有 反 向 引用 和 十 进 制 转 
义 的 二 义 性 ， 它 只 能 表示 反 辐 引用 ， 即 使 这 样 需要 截断 结尾 的 数字 。 
例如 ， Ca.) \10 中 的 '\10, 会 被 处 理 为 ， 第 1 组 捕获 性 括号 匹配 的 
文本 ， 然 后 十 文字 ‘0’。 


使 用 .NET 正则 表达 式 


Using.NET Regular Expressions 

.NET 正 则 表达 式 功 能 强大 ， 语 法 清晰 ， 通 过 完整 而 易于 使 用 的 类 
接口 来 操作 。 虽 然 微软 的 正则 表达 式 包 做 得 很 床 亮 ， 文 档 却 相反 
它 非 常 糟糕。 文档 不 够 全 面 ， 编 写 不 够 清晰 ， 缺 乏 组 织 ， 有 时 长 至 不 
能 保证 正确 性 。 我 花 了 很 长 的 时 间 才 整理 清楚 ， 所 以 希望 这 一 章 的 内 
容 能 够 让 读者 更 清楚 地 理解 .NET 的 正则 表达 式 。 


正则 表达 式 快速 入 门 


Regex Quickstart 

即使 不 需要 知道 正则 类 模型 (regex class model) 的 细节 ， 也 可 以 
直接 上 手 使 用 .NET 的 正则 表达 式 包 。 理 解 细节 能 够 让 我 们 获得 更 多 的 
言 息 ， 提 高 工作 效率 ,但 是 下 面 这 些 简单 的 例子 没有 明确 创建 任何 正 
则 类 ， 细 节 将 在 例子 之 后 提 到 。 

使 用 正则 表达 式 库 的 程序 必须 在 文件 的 开头 写 上 下 面 这 条 语句 ， 
下 面 的 例子 假设 此 句 已 经 存在 : 


Imports System.Text.RegularExpressions 


下 面 的 例子 都 能 正常 处 理 String 变 量 TestStr。 本 章 的 所 有 例子 中 ， 
选用 的 变量 名 都 以 笠 体 标注 。 
快速 入 门 : 在 字符 串 中 寻找 匹配 
这 段 程序 检查 一 个 正则 表达 式 是 否 能 匹配 字符 串 : 
If Regex.IsMatch (TestStr, "^\s*$") 
Console.WriteLine("line is empty") 
Else 


Console.WriteLine("line is not empty") 
End If 


这 个 例子 使 用 了 匹配 模式 : 


If Regex.IsMatch(TestStr, "“subject:", RegexOptions.IgnoreCase) 
Console.WriteLine("line is a subject line") 

Else 
Console.WriteLine("line is not a subject line") 

End If 


快速 入 门 : 匹配 ， 获 得 匹配 文本 
这 个 例子 显示 正则 表达 式 实 际 匹 配 的 文本 。 如 果 没 有 匹配 ， 
TheNum 就 是 空 字符 串 。 
Dim TheNum as String = Regex.Match(TestStr, "\d+") .Value 
If TheNum <> "" 


Console.WriteLine ("Number is: " & TheNum) 
End If 


这 个 例子 使 用 了 一 个 匹配 模式 : 


Dim ImgTag as String = Regex.Match(TestStr, "<img\b[*>]*>", _ 
RegexOptions.IgnoreCase) ,Value 
If ImgTag <> "" 
Console.WriteLine ("Image tag: " & ImgTaq) 
End If 


快速 入 门 : 匹配 ， 获 得 捕获 文本 
这 段 程序 以 字符 串 的 形式 返回 第 1 个 捕获 分 组 的 匹配 文本 : 
Dim Subject as String = _ 
Regex.Match(TestStr, "“Subject: (.*)") .Groups (1) .Value 
If Subject <> "" 


Console.WriteLine ("Subject is: " & Subject) 
End If 


请 注意 ， 在 C 世 中 应 使 用 Groups[1] 取 代 Groups (1) ° 
下 面 的 程序 目的 相同 ， 只 是 使 用 了 match 选 项 : 


Dim Subject as String = _ 
Regex.Match(TestStr, "“subject: (.*)", _ 
RegexOptions.IgnoreCase) .Groups (1) .Value 
If Subject <> "" 
Console.WriteLine ("Subject is: " & Subject) 
End If 


仍然 是 相同 的 程序 ， 只 是 使 用 命名 捕获 : 


Dim Subject as String = _ 
Regex.Match(TestStr, "“subject: (?<Subj>.*)", _ 
RegexOptions.IgnoreCase) .Groups ("Subj") .Value 
If Subject <> "" 
Console.WriteLine ("Subject is: " & Subject) 
End If 


快速 入 门 : 查找 和 替换 


这 个 例子 把 输入 的 字符 串 转 换 为 HTML“ 安 全 ”的 字符 ， 把 特殊 的 
HTML 转换 为 HTML entity: 


TestStr = Regex.Replace(TestStr, "&", "&amp;") 
TestStr = Regex.Replace(TestStr, "<", "&lt;") 
TestStr = Regex.Replace(TestStr, ">", "&gt;") 


Console.WriteLine ("Now safe in HTML: " & TestStr) 


replacement FFE (第 3 个 参数 ) 的 处 理 是 很 特殊 的 ， 第 424 页 的 补 
充 内 容 做 了 讲解 。 例 如 ， 在 replacement 字符 串 中 ，'& 会 被 正则 表达 
式 真正 匹配 的 文本 所 蔡 代 ， 下 面 的 例子 给 大 写 的 单词 添加 <B>...</B 


>: 


TestStr = Regex.Replace(TestStr, "\b[A-Z]\w*", "<B>$&</B>") 
Console.WriteLine ("Modified string: " & TestStr) 


这 个 例子 把 <B>...</B> (使 用 不 区 分 大 小 写 的 匹配 ) 替换 为 < 
I>...</I>: 


TestStr = Regex.Replace(TestStr, "<b>(.*?)</b>", "<I>$1</I>", _ 
RegexOptions. IgnoreCase) 
Console.WriteLine ("Modified string: " & TestStr) 
包 概 览 


Package Overview 

通过 丰富 而 便捷 的 类 结构 ， 可 以 使 用 .NET 正 则 表达 式 几 乎 所 有 的 
功能 。 下 面 这 个 完整 的 控制 台 程 序 ， 提 供 了 关于 整个 包 的 概览 ， 它 明 
确 使 用 各 种 对 象 来 进行 简单 的 匹配 。 


Option Explicit On ' 使 用 正则 表达 式 时 并 非 必须 这 样 写 
Option Strict On | 但 这 样 做 是 个 好 习 悄 

! 简化 正则 表达 式 相 关 的 类 的 访问 

Imports System.Text.RegularExpressions 


Module SimpleTest 
Sub Main() 
Dim SampleText as String = "this is the lst test string" 
Dim R as Regex = New Regex("\d+\w+") ‘编译 这 个 pattern 
Dim M as Match = R.match(SampleText) ! 应 用 到 字符 事 中 
If not M.Success 
Console.WriteLine("no match") 
Else 
Dim MatchedText as String = M.Value ! 查 询 结果 . . ， 
Dim MatchedFrom as Integer = M. Index 
Dim MatchedLen as Integer = M.Length 
Console.WriteLine("matched [" & MatchedText & "]" & _ 
" from char#" & MatchedFrom.ToString() & _ 
"for " & MatchedLen.ToString() & " chars.") 
End If 
End Sub 
End Module 


通过 命令 行 提 示 符 来 执行 ， 把 Ndaw 应 用 到 同样 的 文本 ， 结 
是 : 

matched [1st] from char#12 for 3 chars. 

导入 正则 表达 式 名 字 空 间 

你 注意 到 程序 头 部 的 Imports System.Text.RegularExpressions 了 
吗 ? 任何 用 到 .NET 正 则 对 象 的 VB 程序 都 必须 写 上 这 一 条 语句 ， 才 能 通 
过 编译 。 

CHP IVA: 

using System.Text.RegularExpressions; //C # P MXA 

这 个 例子 说 明了 基本 的 正则 对 象 的 用 法 ， 下 面 两 行 主要 行为 : 


Dim R as Regex = New Regex ("\d+\w+") ' 编 译 这 个 pattern 
Dim M as Match R.match(SampleText) ' 应 用 到 字符 串 中 


也 可 以 合并 为 一 行 : 


Dim M as Match=Regex.Match (SampleText, " \d+\w+" ) ' 对 字符 
=P M H pattern 

合并 的 写法 更 容易 使 用 ， 程 序 员 需要 输入 的 代码 更 少 ， 需 要 记录 
的 对 象 也 更 少 。 不 过 ， 它 的 效率 会 稍微 低 一 些 (432) 。 在 下 面 儿 页 
中 ， 我 们 首先 会 看 到 原始 的 对 象 ， 然 后 学 习 “ 便 捷 * 画 数 ， 例 如 静态 函 
数 Regex.Match， 以 及 合适 的 使 用 时 机 。 

为 简便 起 见 ， 在 程序 片段 的 例子 中 ， 我 会 省 略 下 面 这 几 行 : 


Option Explicit On 
Option Strict On 
Imports System.Text.RegularExpressions 


本 书 的 第 96、99、204、219 和 237 页 出 现 过 VB 的 例子 ， 回 顾 它 们 
也 许 有 所 帮助 。 


核心 对 象 概览 


Core Object Overview 

在 深入 细节 之 前 ， 先 来 看 看 .NET 的 正则 对 象 模型 。 对 象 模型 是 一 
套 类 结构 ， 正 则 表达 式 的 各 种 功能 通过 它们 来 提供 。.NET 的 正则 功能 
通过 7 个 高 度 交 互 的 类 来 提供 ， D Ces eee 
也 就 是 下 一 页 的 图 9-1 所 示 的 3 个 类 示 了 对 ‘May: 16, 
:1998’ 重 复 应 用 s+ (\d+) | 的 过 程 。 

Regex 对 象 

一 步 是 创建 Regex 对 象 ， 例 如 : 

Dim R as Regex=New Regex( " \s+(\d+) " ) 

在 这 里 ， 我 们 用 一 个 Regex 对 象 表示 \s+ (\d+) |, HH 
量 R 中 。 获 得 Regex 对 象 之 后 ， 我 们 可 evar (text) 方 将 其 应 
用 到 一 段 文 本 ， 返 回 与 第 一 次 匹配 结果 相关 的 信息 

Dim M as Match=R.Match( " May 16,1998 " ) 


"\s+(\d+)" 
ot 
a 


an 


Match (*May*16,*1998") 


Groups (1) 


i“ 


4 | Group Group 
Object Object 


Index 
Length 


Value Value 
7 Success 8 
4 


5 
"+1998" "1998" 
true true 


19-1: .NET 正 则 表达 式 相 关 对 象 模型 
Match 对 象 
Regex 对 象 的 Match (...) 方法 通过 创建 并 返回 Match 对 象 来 提供 匹 
配 信息 。Match 对 象 有 多 个 属性 ， 包 括 Success (一 个 表示 匹配 是 否 成 功 
的 Boolean 值 ) 和 Value 《如果 死 配 成 功 ， 则 保存 实际 匹配 文本 的 加 
本 ) 。 稍 后 我 们 会 看 到 Match 的 所 有 属性 的 列表 © 
Match 对 象 返回 的 细 和 中 还 包括 捕获 型 括号 所 匹配 的 文本 。 前 面 
Perl 的 例子 使 用 $1 保存 第 一 组 捕获 型 括号 匹配 的 文本 。.NET 提 供 了 两 种 
办 法 : 如 果 要 取得 纯 文 本 ， 可 以 按照 索引 值 访 问 Match 对 象 的 Groups 属 


性 ， 例 如 Groups (1) .Value， 它 等 价 于 Pen 的 $1 《请 注意 ，C 艺 中 使 用 
的 是 Groups[1].Value) 。 男 一 个 办 法 是 使 用 Result 方 法 ， 请 参考 第 429 
页 o 

Group 对 象 

前 一 段 中 的 Groups (1) 其 实 是 对 Group 对 象 的 引用 ， 后 面 的 .Value 
引用 它 的 Value 属性 〈 也 就 是 此 分 组 对 应 的 文本 ) 。 每 一 组 捕获 型 括号 
都 对 应 一 个 Group 对 象 ， 另 外 还 有 一 个 “虚拟 分 组 (virtual group) ”， 其 
编号 为 0， 它 保存 全 局 匹配 的 信息 。 
因此 ，MatchObj.Value 和 MatchObj.Groups (0) .Value 是 等 价 的 
都 是 全 局 匹配 的 文本 的 副本 。 第 一 种 写法 更 加 简 污 方便 ， 但 我 们 
必须 知道 存在 编号 为 0 的 分 组 ， 因 为 MatchObj.Groups.Count “也 就 是 
Match 关 联 的 分 组 的 数目 ) 包含 了 它 。 如 果 s+ (\d+) | 能够 匹配 成 
功 ，MatchObj.Groups.Count 的 值 就 是 2 (标号 为 0 的 全 局 匹配 和 $1) 。 

Capture 对 象 

Capture 对 象 的 使 用 并 不 频繁 ， 请 参考 第 437 页 的 介绍 。 

匹配 时 会 计算 出 所 有 结果 

把 正则 表达 式 应 用 到 字符 串 中 ， 得 到 一 个 Match 对 象 ， 此 时 所 有 的 
结果 (人 匹配 的 位 置 ， 每 个 捕获 分 组 匹配 的 内 容 等 ) 都 会 计算 出 来 ， 封 
装 到 Match 对 象 中 。 访 问 Match 对 象 的 属性 和 方法 ， 包 括 它 的 Group 对 象 
(及 其 属性 和 方法 ) 只 是 取 回 已 经 计算 好 的 结果 。 


核心 对 象 详解 


Core Object Details 


概 哎 完 毕 ， 来 看 细 方 。 首 先 ， 我 们 来 看 如 何 创 建 Regex 对 象 ， 然 
后 来 看 如 何 将 其 应 用 到 字符 串 ， 生 成 Match 对 象 ， 以 及 如 何 处 理 这 个 
Match 对 象 和 它 的 Group 对 象 。 

在 实践 中 ， 很 多 时 候 不 必 明 确 创建 Regex 对 象 ， 不 过 明确 创建 看 
起 来 更 顺眼 ， 所 以 在 讲解 核心 对 象 时 ， 每 次 都 会 创建 它们 。 稍 后 我 会 
告诉 你 .NET 提 供 的 简便 方法 。 

在 下 面 的 列表 中 ， 我 会 忽略 从 Object 类 继承 而 来 的 ， 很 少 用 到 的 方 


1K ° 


创建 Regex 对 象 


Creating RegexObjects 

Regex 的 构造 函数 并 不 复杂 。 它 可 以 接收 一 个 参数 (作为 正则 表达 
式 的 字符 串 ) ， 或 者 是 两 个 参数 (一 个 正则 表达 式 和 一 组 选项 ) 。 下 
面 是 一 个 参数 的 例子 : 

Dim StripTrailWS=new Regex ("\s+$") ' 去 掉 结尾 的 空白 字符 

它 只 是 创建 Regex， 做 好 应 用 前 的 准备 ， 而 没有 进行 任何 匹配 。 

下 面 是 使 用 两 个 参数 的 例子 : 

Dim GetSubject=new Regex( " Asubject:(. * ) 
" ,RegexOptions.IgnoreCase) 

这 里 多 出 了 一 个 RegexOptions 选 项 ， 不 过 可 以 用 OR 运算 符 连接 多 
个 选项 ， 例 如 : 


Dim GetSubject = new Regex("“subject: (.*)", 
RegexOptions.IqnoreCase OR RegexOptions.Multiline) 


捕获 异常 
如 采 正 则 表达 a a SFRNIFEAA, MS ji H 
ArgumentException ° ， 如 果 用 户 知道 所 使 用 的 正则 表达 式 能 够 正 


常 工作 ， 就 不 需要 捕获 这 个 异常 ， 不 过 如 果 使 用 程序 “之 外 ”《〈 例 如 由 
用 户 输入 ， 或 者 从 配置 文件 读 入 ) 的 正则 表达 式 ， 就 必须 捕获 这 个 异 
Eo 
Dim R As Regex 
Try 
R = New Regex (SearchRegex) 
Catch e As ArgumentException 
Console.WriteLine ("*ERROR* bad regex: " & e.ToString) 
Exit Sub 
End Try 
显然 ， 根 据 情 况 的 不 同 ， 在 检测 到 异常 之 后 可 能 需要 不 同 的 处 
理 : 你 可 能 需要 进行 其 他 的 处 理 ， 而 不 仅仅 是 向 控制 台 输出 报错 信 
A s 
Regex 选 项 
在 创建 Regex 对 象 时 ， 可 以 使 用 下 面 的 选项 : 
RegexOptions.[gnoreCase 
此 选项 表示 ， 在 应 用 正则 表达 式 时 ， 不 区 分 大 小 写 (110) ° 
RegexOptions.IgnorePatternWhitespace 
此 选项 表示 ， 正 则 表达 式 应 该 按照 自由 格式 和 注释 模式 (111) 
来 解析 。 如 果 使 用 单纯 的 “区 .…, 注释 ， 请 确认 在 每 一 个 逻辑 行 的 末尾 
都 有 换行 从 ， 否 则 第 一 处 注释 会 “注释 挥 ” 之 后 的 整个 正则 表达 式 。 
在 VB.NET 中 ， 我 们 可 以 用 chr (10) 来 实现 ， 例 如 : 


Dim R as Regex = New Regex( _ 


"# 匹配 一 个 浮 点 数 ... "& chr(10) & _ 
" \d+(?:\.\d*)? # 开头 是 整数 部 分 .. . "& chr(10) & _ 
w] # AX... "& chr(10) & _ 
"\.\d+ # FRA PRA", 


RegexOptions. IgnorePatternWhitespace) 


这 样 很 累 费 ，VB.NET 提 供 了 更 简便 的 〈? #...) | 注释 : 


Dim R as Regex = New Regex( _ 
"(?# 匹 配 一 个 浮 点 数 ..， 


y" 
"A\dt(2:\.\d*)?  (?# 开 头 是 整数 部 分 ,.. A i sp 
oar (?# 或 者 ... "e 
n \.\d+ (3# 开 头 是 小 数 点 )", 
RegexOptions.IgnorePatternWhitespace) 


RegexOptions.Multiline 

此 选项 表示 ， 正 则 表达 式 在 应 用 时 应 采用 增强 的 行销 点 模式 (o 
112) 。 也 就 是 说 ，'^ A'S, 能 够 匹配 字符 串 内 部 的 换行 符 ， 而 不 仅 
仅 是 匹配 整个 字符 串 的 开头 和 结尾 。 

RegexOptions.Singleline 

此 选项 表示 ， 正 则 表达 式 使 用 点 号 通 配 模式 (11) 。 此 时 点 号 
能 够 匹配 任意 字符 ， 也 包括 换行 符 。 

RegexOptions.ExplicitCapture 

此 选项 表示 ， 普 通 括号 OC...) |， ， 在 正常 情况 下 是 捕获 型 括号 ， 
但 此 时 不 捕获 文本 ， 而 是 与 ”(? : ...) | 一样， 只 分 组 ， 不 捕获 。 此 
时 只 有 命名 捕获 括号 ”(? <name>...) | 能 够 捕获 文本 。 

如 果 使 用 了 命名 分 组 ， 又 希望 使 用 非 捕 获 型 括号 来 分 组 ， 束 可 以 
使 用 正常 的 ”(...) | 括号 和 此 选项 ， 这 样 程序 看 起 来 更 清晰 。 

RegexOptions.RightToLeft 

此 选项 表示 ， 进 行 从 右 向 左 的 匹配 (411) 

RegexOptions.Compiled 

此 选项 表示 ， 正 则 表达 式 应 该 在 实际 应 用 时 被 编译 ， 成 为 高 度 优 
化 的 格式 ， 这 样 通常 会 大 大 提高 匹配 速度 。 不 过 这 样 会 增加 第 一 次 使 
用 时 的 编译 时 间 ， 以 及 程序 执行 期 间 的 内 存 占用 。 

如 果 正 则 表达 式 只 需要 应 用 一 次 ， 或 者 应 用 并 不 是 很 频繁 ， 就 没 
必要 使 用 Regex Options.Compiled, ， 因 为 即使 这 个 Regex 对 象 已 经 被 回 
收 ， 多 占 的 内 存 也 不 会 释放 。 不 过 如 果 正 则 表达 式 在 对 时 间 要 求 很 高 
的 场合 应 用 ， 这 个 选项 可 能 非常 有 价值 。 


在 第 237 页 的 例子 中 ， 使 用 这 个 选项 减少 了 大 约 一 半 的 测试 时 间 。 
还 可 以 参考 关于 编译 到 装配 件 (assembly) 的 讨论 (434) 。 

RegexOptions.ECMAScript 

此 选项 表示 ， 正 则 表达 式 应 该 按照 ECMAScript (412) 兼容 方 
式 来 解析 。 如 果 不 清楚 ECMAScript， 或 者 不 需要 兼容 它 ， 可 以 直接 忽 
Hy © 

RegexOptions.None 

它 表 示 “ 没 有 额外 的 选项 *， 在 初始 化 RegexOptions 变 量 时 ， 如 果 需 
要 指定 选项 ， 可 以 使 用 它 。 也 可 以 用 OR 来 连接 其 他 希望 使 用 的 选项 。 


使 用 Regex 对 象 


Using RegexObjects 
在 没有 实际 应 用 之 前 ，Regex 是 没有 意义 的 ， 下 面 的 程序 示范 了 实 
际 的 应 用 : 


RegexObj . IsMatch (target) Return type: Boolean 
RegexObj .IsMatch(target, offset) 


IsMatch 77 RFE H PN IE eA TU A A eB, AE 4 
Boolean 值 ， 表 示 匹 配 演 斌 是 否 成 功 ， 这 里 有 个 例子 : 


Dim R as RegexObj = New Regex("^\s*$") 
If R.IsMatch(Line) Then 
， 如果 行为 空 ... 


Endif 
如 果 提 供 了 offset (一 个 整数 ) ， 则 第 一 次 党 试 会 从 对 应 的 偏 移 值 
开始 。 
RegexObj.Match (target) Return type: Match object 
RegexObj.Match (target, offset) 
RegexObj.Match (target, offset, maxlength) 


Match 77 AE IE MU RAAME A BP, eE — “Match xf 
象 。 通 过 这 个 Match 对 象 可 以 查询 匹配 结果 的 信息 〈 是 否 匹配 成 功 ， 捕 


获 的 文本 等 等 ) ， 初 始 化 此 正则 表达 式 的 “下 一 次 ”匹配 。Match 对 象 的 
细节 见 第 427 页 。 

如 果 提 供 了 offset (一 个 整数 ) ， 则 第 一 次 尝试 会 从 对 应 的 偏 移 值 
开始 。 

如 果 提 供 了 maxlength 参 数 ， 会 进行 特殊 模式 的 匹配 ， 从 offset 开 始 
的 字符 开始 计算 ， 正 则 引擎 会 把 maxlength 长 度 的 文本 当 作 整个 目标 字 
符 串 ， 假 设 此 范围 之 外 的 字符 都 不 存在 ， 所 以 此 时 ^, 能 够 匹配 原来 
的 目标 字符 串 中 的 offset 位 置 ， $ ,能够 匹配 之 后 maxlength 个 字符 的 位 
置 。 同 样 ， 环 视 结构 不 能 “感觉 到 ”此 范围 之 外 的 字符 。 这 与 提供 offset 
有 很 大 不 同 ， 如 果 只 提供 了 offset， 受 影响 的 只 是 传动 装置 开始 应 用 正 
则 表达 式 的 位 置 一 一 正则 引 敬 仍然 能 够 “看 到 ”完整 的 目标 字符 串 。 

下 面 表格 中 的 例子 比较 了 offset 和 maxlength 的 意义 : 


调用 方法 以 下 列表 达 式 RegexObj 的 结果 


RegexObj.Match ("May 16,1998") 失败 
RegexObj .Match("May 16,1998", 9) 失败 
RegexObj .Match ("May 16,1998", 9, 2) 匹配 “99 
RegexObj .Matches (target) Return type: MatchCollection 
RegexObj.Matches (target, offset) 
Matches 方 法 类 似 Match 方 法 ， 只 是 Matches 方 法 返回 一 组 Match 对 
象 ， 代 表 目 标 字 符 串 中 的 所 有 匹配 结果 ， 而 不 是 第 一 次 的 匹配 结果 。 
返回 的 对 象 为 MatchCollection ° 
例如 ， 初 始 化 代码 如 下 : 


Dim R as New Regex("\w+") 
Dim Target as String = "a few words" 


下 面 的 程序 : 


Dim BunchOfMatches as MatchCollection = R.Matches (Target) 
Dim I as Integer 
For I = 0 to BunchOfMatches.Count - 1 
Dim MatchObj as Match = BunchOfMatches.Item(I) 
Console.WriteLine("Match: " & MatchObj.Value) 
Next 


Match: a 
Match: few 
Match: words 
下 面 的 程序 输出 同样 的 结果 ， 它 说 明 ，MatchCollection 对 象 可 以 
一 次 分 配 整个 Match-Collection ° 
Dim MatchObj as Match 
For Each MatchObj in R.Matches (Target) 


Console.WriteLine("Match: " & MatchObj.Value) 
Next 


作为 比较 ， 下 面 的 代码 也 可 以 达到 同样 的 效果 ， 使 用 Match (而 不 
是 Matches) 方法 : 


Dim MatchObj as Match = R.Match (Target) 
While MatchObj.Success 


Console.WriteLine("Match: " & MatchObj.Value) 
MatchObj = MatchObj.NextMatch () 
End While 
RegexObj.Replace (target, replacement) Return type: String 


RegexObj.Replace (target, replacement, count) 
RegexObj.Replace (target, replacement, count, offset) 


Replace 方 法 会 在 目标 字符 串 中 进行 查找 -替换 ， 返 回 〈《 有 可 能 已 经 
变化 的 ) 字符 串 副 本 。 它 应 用 的 是 Regex 对 象 的 正则 表达 式 ， 返 回 的 不 
是 Match 对 象 ， 而 是 替换 的 结果 。 匹 配 的 文本 被 什么 内 容 替 换 ， 取 决 于 
replacement 人 参数 。replacement 人 参数 可 以 重 载 : 它 可 以 是 一 个 字符 串 ， 也 
可 以 是 MatchEvaluator 委 托 (delegate) 。 如 果 replacement 是 一 个 字符 
串 ， 它 会 按照 下 一 页 补充 内 容 的 说 明 进 行 处 理 。 例 如 : 


Dim R CapWord as New Regex("\b[A-Z] \w*") 


Text = R CapWord.Replace(Text, "<B>$0</B>") 

把 每 一 个 大 写 单词 两 边 加 上 <B>...</B>。 

如 果 设 置 了 count， 就 只 会 进行 count 次 蔡 换 (默认 情况 是 进行 所 有 
的 替换 ) 。 如 果 只 希望 替换 第 一 次 匹配 ， 可 以 将 count 设 置 为 1°。 如果 我 
们 知道 只 会 有 一 次 匹配 ， 把 count 明 确 设置 为 1 的 效率 会 更 高 ， 因 为 不 
需要 对 字符 串 的 其 他 部 分 进行 查找 和 处 理 。 把 count 设置 为 -1 表示 “所 
有 匹配 都 必须 替换 ”( 它 等 价 于 没有 设置 count) 。 

如 果 设 置 了 offset (一 个 整数 ) ， 则 应 用 正则 表达 式 时 ， 目 标 字符 
串 中 对 应 数目 的 字符 会 被 忽略 。 这 些 忽略 的 字符 会 直接 被 复制 到 结 
中 。 

例如 ， 这 段 代码 会 去 掉 多 余 的 空白 字符 《也 就 是 将 连续 的 多 个 空 
白字 符 替 换 为 单个 空格 ) : 


Dim AnyWS as New Regex("\st") 


Target = AnyWS.Replace(Target, " ") 


‘some random spacing WERA ‘some-random-spacing’ ° FEA 
码 的 结果 相同 ， 只 是 它 会 保留 行 开 头 任意 数目 的 空白 字符 。 


Dim AnyWS as New Regex ("\s+") 

Dim LeadingWS as New Regex("*\st") 

Target = AnyWS.Replace(Target, " ", -1, LeadingWS.Match (Target) .Length) 
m> ZS 。 
E 会 把 “some random spacing’ 转 化 


为 “…SomeTandom'spacing" ， 在 查找 和 替换 时 ， 它 使 用 LeadingWS 匹 配 
文本 的 长 度 作为 偏 移 值 (就 是 要 跳 过 的 字符 数目 ) 。 这 里 用 到 了 Match 
对 象 的 简便 特性 ， 即 LeadingWS.Match (Target) 的 Length 属 性 (即便 
失败 也 没 问 题 ， 此 时 Length 的 值 为 0， 也 束 是 说 我 们 需要 对 整个 目标 字 
符 串 应 用 AnyWS) 。 


特殊 的 Replacement 处 理 


Regex.Replace 方法 和 Match,Result 方法 者 可 以 接收 能 够 进行 特殊 处 理 的 
replacement 字符 事 。 下 面 的 字符 序列 会 被 匹配 的 文本 所 替换 ， 


7 BAS Aik KORA TK (等 于 $0) 
Sache ree st bes 
$(name) 对 应 命名 捕 欧 分 组 匹配 的 文本 

目标 字符 事 中 匹配 文本 之 前 的 文本 

目标 字符 事 中 匹配 文本 之 后 的 文本 

单个 “S$” 字符 

整个 原始 目标 字符 事 的 副本 

见 说 明 
目前 ，$+ 儿 乎 是 没有 用 的 。 它 源 自 Perl 中 的 $+ 变量 ， 即 实际 参与 匹配 的 捕获 型 括号 中 
编号 最 大 的 那个 【第 202 页 有 一 个 例子 ), 而 ,NET 的 replacement FA $ pihs] 
用 正则 表达 式 中 最 靠 后 的 那个 捕 欧 型 括号 匹配 的 文本 ， 因 为 捕获 型 括号 会 重新 编号 一 
一 在 使 用 命名 型 捕获 时 ， 会 自动 进行 这 种 操作 (7409), HAC RARAA, 
除了 上 面 的 情况 之 外 ， 任 何 情况 下 在 replacement FH PPRA S ”者 完全 没 问题 ， 


使 用 replacement 委 托 

replacement 参数 不 只 能 用 简单 字符 串 ， 还 可 以 是 委托 (delegate, 
简单 说 就 是 函数 指针 ) 。 代 理 函 数 在 每 次 匹配 之 后 调用 ， 生 成 作为 
replacement 的 文本 。 因 为 这 个 函数 能 够 进行 我 们 需要 的 任何 处 理 ， 这 种 
查找 替换 的 机 制 功能 非常 强大 。 

委托 的 类 型 是 MatchEvaluator， 每 次 匹配 都 会 调用 。 它 所 引用 的 画 
数 必须 接受 Match 对 象 ， 进 行 你 所 需要 的 任何 处 理 ， 返 回 作为 
replacement 的 文本 。 

做 个 比较 ， 下 面 两 段 程序 输出 同样 的 结 


Target = R.Replace (Target, "<<$&>>") ) 


Function MatchFunc(ByVal M as Match) as String 
return M.Result ("<<$&>>") 
End Function 
Dim Evaluator as MatchEvaluator = New MatchEvaluator (AddressOf MatchFunc) 


Target = R.Replace(Target, Evaluator) 


两 段 程序 都 用 <<.…> > 标注 匹配 的 文本 。 使 用 委托 的 好 处 在 
于 ， 在 计算 replacement 时 我 们 可 以 进行 任意 复杂 的 操作 。 下 面 的 例子 把 
摄氏 温度 转换 为 华氏 温度 : 
Function MatchFunc(ByVal M as Match) as String 
' 从 $1 欧 得 温度 数值 ， 转 换 为 华氏 温度 
Dim Celsius as Double = Double. Parse(M.Groups (1) .Value) 
Dim Fahrenheit as Double = Celsius * 9/5 + 32 
Return Fahrenheit & "F" ' 添 加 "F"， 然 后 返回 
End Function 


Dim Evaluator as MatchEvaluator = New MatchEvaluator (AddressOf MatchFunc) 


Dim R Temp as Regex = New Regex("(\d+)C\b", RegexOptions. IgnoreCase) 
Target = R Temp.Replace(Target, Evaluator) 
如 果 目 标 字 符 串 中 包含 "Temp is 37C.’, E ie HEA ‘Temp is 
98.6F.’ ° 


RegexObj .Split (target) Return type: array of String 
RegexObj.Split (target, count) 
RegexObj.Split (target, count, offset) 


Split 方法 将 目标 正则 表达 式 应 用 于 目标 字符 串 ， 返 回 由 各 匹配 分 
隔 的 字符 串 数 组 。 如 下 面 这 个 例子 所 示 : 


Dim R as New Regex("\.") 
Dim Parts as String() = R.Split("209.204.146.22") 


R.Split 返回 包含 四 个 字符 串 的 数 组 
(209'、'204'、'146: 和 ?22') ， 它 们 由 N, 在 目标 字符 捉 中 的 三 次 匹 


配 来 分 隔 。 

如 有 果 提 供 了 count 参 数 ， 则 至 多 返回 count 个 字符 串 (除非 使 用 了 捕 
获 型 括号 ， 一 会 儿 会 说 到 这 个 问题 ) 。 如 果 没 有 提供 count，Split 返 回 
所 有 匹配 分 隔 的 字符 串 。 提 供 count 的 意思 是 ， 正 则 表达 式 可 能 在 找到 
最 终 匹 配 之 前 停止 应 用 ， 若 果真 如 此 ， 数 组 中 最 后 的 元 素 就 是 目标 字 
符 串 中 余下 的 部 分 。 

Dim R as New Regex("\.") 

Dim Parts as String() = R.Split("209.204.146.22", 2) 

此 时 ，Parts 得 到 两 个 字符 串 ，“209: 和 “204.146.22”。 

如 果 设 置 了 offset (一 个 整数 ) ， 则 正则 表达 式 的 匹配 尝试 从 对 应 
编号 的 字符 开始 。 前 面 的 offset 个 字符 会 作为 数组 的 第 一 个 元 素 返 回 
(如 果 设 置 了 RegexOptions.RightToLeft， 就 会 作为 最 后 一 个 元 素 ) ° 

在 Split 中 使 用 捕获 型 括号 

如 有 果 出 现 了 任何 形式 的 捕获 型 括号 ， 数 组 中 通常 会 包含 额外 的 捕 
获 文 本 (也 有 些 情况 下 根本 不 会 包含 ) 。 来 看 个 简单 的 例子 ， 要 拆 分 
字符 串 ‘2006-12-31’ 或 是 ‘04/12/2007*， 你 可 能 会 使 用 'T-/1, : 

Dim R as New Regex("[-/]") 
Dim Parts as String() = R.Split(MyDate) 

结果 包含 3 个 元 素 ( 均 为 字符 串 ) 。 不 过 ， 使 用 捕获 型 括号 的 正 
则 表达 式 (v, D) ，， 则 会 返回 5 个 字符 串 : 如 果 MyDate 包 含 “2006- 
12-31’”， 这 5 个 元 素 是 ‘2006?、‘-*、‘12?、‘-*、‘31?。 多 出 来 的 -是 每 次 
捕获 的 $1 。 

如 果 有 多 组 捕获 型 括号 ， 它 们 会 按照 编号 排序 (也 就 是 说 ， 所 有 
的 命名 捕获 跟随 在 未 命名 捕获 之 后 入 409) 

只 要 实际 参与 了 匹配 捕获 型 括号 的 捕获 型 括号 ， 都 会 包含 在 Split 
的 结果 中 。 不 过 ， 目 前 的 .NET 有 一 个 pug， 即 如 果 某 组 捕获 型 括号 没 
有 参与 匹配 ， 它 和 所 有 编号 更 靠 后 的 捕获 型 括号 都 不 会 包含 在 返回 的 
结果 中 。 

来 看 个 极端 点 的 例子 ， 如 果 需 要 以 左右 可 能 出 现 空 日 字符 的 逗号 
作为 分 隔 ， 而 且 空白 字符 必须 包含 在 返回 结果 中 。 用 (st) ? ， 

(\st) ? | 分隔‘this+:，…that*， 得 到 四 个 字符 串 ‘this?、“*、“* 和 ‘that”。 


但 是 ， 如 果 目 标 字 符 串 为 his，:that'， 因 为 第 一 组 捕获 型 括号 没有 参与 
最 终 匹 配 ， 所 有 的 捕获 型 括号 都 不 包含 在 最 终结 果 中 ， 所 以 只 会 返回 
两 个 字符 串 ‘this* 和 “that*。 无 法 预知 到 抬 会 返回 多 少 字 符 串 ， 是 当前 版 
本 的 .NET 的 一 个 重大 问题 。 

在 这 个 例子 中 ， 我 们 可 以 使 用 ”(\s 淡 ) ， Asx) | 绕 开 这 个 问题 
(这 样 两 个 分 组 一 定 都 能 参与 匹配 ) 。 不 过 ， 更 复杂 的 表达 式 就 没 这 
么 容易 改写 了 。 

RegexObj .GetGroupNames () 

RegexObj .GetGroupNumbers () 

RegexObj .GroupNameFromNumber ( number ) 
RegexObj .GroupNumberFromName( name ) 

这 几 个 方法 容许 用 户 查 询 对 应 编号 (可 以 用 数字 ， 如 果 是 命名 捕 
获 ， 也 可 以 用 名 字 ) 的 捕获 型 分 组 的 信息 。 它 们 引用 的 不 是 特定 的 匹 
配 内 容 ， 只 是 正则 表达 式 中 存在 的 分 组 的 名 字 和 编号 。 下 面 的 补充 内 
容 说 明了 使 用 方法 。 


RegexObj .ToString () 

RegexObj .RightToLeft 

RegexObj . Options 

这 几 个 方法 容许 用 户 查 询 Regex 对 象 本 身 (而 不 是 将 此 对 象 应 用 

到 字符 串 上 ) 的 信息 。ToString O 方法 返回 正则 表达 式 构造 函数 接收 
的 字符 串 。RightTIoLeft 属性 返回 一 个 Boolean 值 ， 表 明 它 是 否 局 用 了 
RegexOptions.RightToLeft 选 项 。Options 属 性 返回 与 此 正则 表达 式 相 天 
的 RegexOptions。 下 面 说 明了 各 个 选项 的 什 ， 把 对 应 选项 的 值 相 加 ， 残 
得 到 返回 结 


0 None 16 Singleline 

1 IgnoreCase 32 IgnorePatternWhitespace 
2 Multiline 64 RightToLeft 

4 ExplicitCapture 256 ECMAScript 

8 Compiled 


这 里 没有 128， 因 为 它 用 于 微软 内 部 的 调试 ， 没 有 出 现在 最 终 产 品 
rH o 
补充 内 容 给 出 了 这 些 方 法 的 应 用 实例 。 


使 用 Match 对 象 


Using MatchObjects 

有 三 种 方法 创建 Match 对 象 : Regex 的 Match 方 法 、 静 态 函 数 
Regex.Match 〈 稍 后 介绍 ) 和 Match 对 象 自 己 的 NextMatch 方 法 。 它 封装 
某 个 正则 表达 式 的 单 次 应 用 的 所 有 相关 信息 。 其 属性 和 方法 如 下 : 

MatchObj.Success 

返回 一 个 Boolean 值 ， 表 示 匹 配 是 人 否 成 功 。 如 采 不 成 功 ， 则 返回 一 
个 静态 的 Match.Empty 对 象 (433) ° 


MatchObj .Value 
MatchObj .ToString () 


ER LEI SE Py VEC SCARE o 


显示 Regex 对 象 的 信息 


这 段 代码 显示 了 Regex KR OV A 


:显示 关于 Regex 变量 上 尺 的 包 知 信息 
Console. WriteLine ("Regex is: " & R.ToString()) 
Console. WriteLine ("Options are: " & R.Options) 
If R.RightToLeft 

Console.WriteLine("Is Right-To-Left: True") 
Else 

Console.WriteLine("Is Right-To-Left: False") 
End If 


Dim S as String 
For Each S in R.GetGroupNames () 
Console.WriteLine("Name """ 6 S & """ is Num #" & _ 
R.GroupNumberFromName (S) ) 


Next 

Console.WriteLine ("---") 

Dim I as Integer 

For Each I in R.GetGroupNumbers () 


Console.WriteLine("Num #" 6 I 4" is Name """ & _ 
R.GroupNameFromNumber(I) & """") 
Next 


再 执行 一 次 ， 用 下 面 的 方法 创建 Regex 对 象 : 
New Regex ("* (\wt) ://([°/]+) (/\S*)") 
New Regex ("* (?<proto>\wt) :// (?<host>[*/]+) (?<page>/\S*)", 
RegexOptions. Compiled) 


得 到 下 面 的 结果 (ABH, FMEMAKRARAT FL) 
Regex is: *(\wt)://((*/]+) (/\S*) Regex is: *(?<proto>\wt) :// (?<host> ... 
Option are: 0 Option are: 8 
Is Right-To-Left: False Is Right-To-Left: False 
Name "0" is Num #0 Name "0" is Num #0 
Name "1" is Num #1 Name "proto" is Num #1 
Name "2" is Num #2 Name "host" is Num #2 
Name "3" is Num #3 Name "page" is Num #3 


Num #0 is Name "0" Num #0 is Name "0" 

Num #1 is Name "1" Num #1 is Name "proto" 
Num #2 is Name "2" Num #2 is Name "host" 
Num #3 is Name "3" Num #3 is Name "page" 


MatchObj.Length 

返回 实际 匹配 文本 的 长 度 。 

MatchObj.Index 

返回 一 个 整数 ， 显 示 匹 配 文本 在 目标 中 的 起 始 位 置 。 编 号 从 0 开 
始 ， 所 以 这 个 数字 表示 从 目标 字符 串 的 开头 (最 左边 ) 到 匹配 文本 的 
FA (RAW) 的 长 度 。 即 使 在 创建 Match 对象 时 设置 了 
RegexOptions.RightToLeft， 问 值 也 不 会 变化 。 

MatchObj.Groups 

此 属性 是 一 个 GroupCollection 对 象 ， 其 中 封装 了 多 个 Group 对 象 。 
它 是 一 个 普通 的 集合 类 (collection) ， 包 含 了 Count 和 Item 必 性， 但 是 
最 常用 的 办 法 还 是 按照 索引 值 访问 ， 取 出 对 应 的 Group 对 象 。 例 如 ， 
M.Groups (3) 对 应 第 3 组 捕获 型 括号 ，M.Groups (" HostName " ) 对 
应 命名 捕获 *HostName” (正则 表达 式 中 的 (? <HostName 
Pace) ac? 

ECH, (%FIM.Groups[3]41M.Groups[ " HostName " ] ° 

编号 为 0 的 分 组 表示 整个 正则 表达 式 匹 配 的 所 有 文本 。 
MatchObj.Groups (0) .Value 等 价 于 MatchObj.Value ° 

MatchObj.NextMatch() 

NextMatch () 方法 将 正则 表达 式 应 用 于 目标 字符 串 ， 寻 找 下 一 个 
匹配 ， 返 回 新 的 Match 对 象 。 

MatchObj.Result(string) 

string 是 一 个 特殊 的 序列 ， 按 照 第 424 页 补充 内 容 的 介绍 来 处 理 ， 返 
回 结果 文本 。 这 里 有 个 简单 例子 : 

Dim M as Match = Regex.Match (SomeString, "\wt") 

Console.WriteLine(M.Result ("The first word is ‘$&’")) 

下 面 的 程序 可 以 依次 匹配 内 容 左 侧 和 右 侧 文 本 的 副本 

M.Result ("S$") ' 这 是 匹配 内 容 左 侧 的 文本 
M.Result ("S$") ' 这 是 匹配 内 容 右 侧 的 文本 


调试 时 可 能 需要 显示 某 些 和 行 有 关 的 信息 : 


M.Result ("[$*<S&>$’]") ) 
如 果 把 d+) 应 用 到 “May 16，1998’ 得 到 的 Match 对 象 ， 返 回 的 
是 “May <16>，1998’， 这 清楚 地 体现 了 匹配 文本 。 
MatchObj.Synchronized() 
它 返 回 一 个 新 的 ， 与 当前 Match 完 全 一 样 的 Match 对 象 ， 只 是 它 适 
合 于 多 线程 使 用 。MatchObj.Captures 
Captures 属 性 并 不 常用 ， 参 见 第 437 页 的 介绍 。 


使 用 Group 对 象 


Using GroupObjects 

Group 对 象 包含 一 组 捕获 型 括号 (如 果 编 号 是 0， 吏 表示 整个 匹 
配 ) 的 信息 。 其 属性 和 方法 如 下 : 

GroupObj.Success 

它 返 回 一 个 Boolean 值 ， 表 明 此 分 组 是 否 参与 了 匹配 。 并 不 是 所 有 
的 分 组 都 必须 “参与 ?成 功 的 全 局 匹配 。 如 果 | (this) | (that) | 能 够 成 
功 匹配 ， 肯 定 有 一 个 分 组 能 参与 匹配 ， 另 一 个 不 能 。 第 139 页 的 脚注 中 
AA -THIT ° 


GroupObj .Value 
GroupObj . ToString () 


它们 都 返回 本 分 组 捕获 文本 的 副本 。 如 采 匹 配 不 成 功 ， 则 返回 至 


GroupObj.Length 

返回 本 分 组 捕获 文本 的 长 度 。 如 果 匹 配 不 成 功 ， 则 返回 0 。 

GroupObj.Index 

返回 一 个 整数 ， 表 示 本 分 组 捕获 的 文本 在 目标 字符 串 中 的 位 置 。 
编号 从 0 AS, Pre mie PRAIA (最 左边 ) 到 捕获 文 
本 的 开头 (最 左边 ) 的 长 度 (即使 在 创建 Match 对 象 时 设置 了 
RegexOptions.RightToLeft， 结 果 仍 然 不 变 ) 

GroupObj.Captures 


考 第 437 页 Group 对 象 的 Capture 属 性 。 


Ban Tete” BL 


Static''Convenience" Functions 

在 第 413 页 的 “正则 表达 式 快 速 入 门 ” 中 已 经 看 到 ， 我 们 并 不 需要 每 
次 都 显 式 地 创建 Regex 对 象 。 我 们 可 以 通过 下 面 的 静态 函数 直接 使 用 
正则 表达 式 : 


Regex.IsMatch(target, pattern) 
Regex.IsMatch(target, pattern, options) 


Regex.Match(target, pattern) 
Regex.Match(target, pattern, options) 


Regex.Matches (target, pattern) 
Regex.Matches (target, pattern, options) 


Regex.Replace(target, pattern, replacement) 
Regex.Replace(target, pattern, replacement, options) 


Regex.Split(target, pattern) 
Regex.Split(target, pattern, options) 


其 实 它们 不 过 是 包 逆 了 已 经 介绍 的 主要 的 Regex tte Es A is 
而 已 。 它 们 会 临时 创建 一 个 Regex 对 象 ， 用 它 来 调用 请 求 的 方法 ， 然 
后 弃 用 这 个 对 象 (其 实 并 没有 弃 用 ， 稍 后 介绍 ) 这 里 有 个 例子 : 


If Regex.IsMatch (Line, "*\s*$") 


它 等 价 于 ; 


Dim TemporaryRegex = New Regex("*\s*$") 
If TemporaryRegex.IsMatch (Line) 


或 者 ， 更 确切 地 说 是 : 
If New Regex("*\s*$") .IsMatch (Line) 


wy 


使 用 这 些 便捷 函数 的 好 处 在 于 ， 代 码 因 此 更 请 晰 易 懂 。 面 癌 对 象 
式 处 理 看 起 来 像 画 数 式 处 理 (95) ， 坏 处 在 于 每 次 调用 都 必须 重新 


S EE pattern FFE ° 
如 果 在 整个 程序 的 执行 过 程 中 ， 正 则 表达 式 只 用 到 1 次 ， 束 不 需 
要 考虑 便捷 函数 的 效率 问题 。 但 是 ， 如 果 需 要 应 用 多 次 (例如 在 循环 
中 ， 或 者 是 频繁 调用 的 函数 中 ) ， 每 次 准备 正则 表达 式 都 需要 代价 
(241) 。 创 建 Regex 对 象 ， 然 后 重复 使 用 的 主要 原因 之 一 就 是 ， 使 
用 便捷 函数 的 效率 太 低 。 不 过 ， 下 一 节 将 告诉 我 们 ，.NET 提 供 了 一 种 
很 好 的 解决 办 法 : 兼 具 面 问 对 象 的 效率 和 函数 式 处 理 的 便捷 。 


正则 表达 式 缓存 


Regex Caching 

为 简单 的 正则 表达 式 构建 并 管理 Regex 对 象 很 不 方便 ， 所 以 .NET 
的 正则 包 提供 了 各 种 静态 方法 。 但 这 些 静态 方法 存在 效率 缺陷 ， 即 每 
次 调用 都 需要 创建 临时 的 Regex 对 象 ， 应 用 它 ， 然 后 弃 用 。 如 采 在 循 
环 中 需要 多 次 应 用 同样 的 正则 表达 式 ， 就 需要 进行 许多 不 必要 的 工 
作 。 

为 了 避免 重复 的 工作 ，.NET Framework 能 够 缓存 静态 方法 创建 的 
临时 变量 。 第 6 章 已 经 大 致 介绍 过 缓存 (244) ， 简 单 地 说 ， 缓 存 的 
意思 就 是 如 果 你 希望 在 静态 方法 中 使 用 “最 近 ” 使 用 过 的 正则 表达 式 ， 
此 方法 就 会 重用 之 前 创建 的 正则 对 象 ， 而 不 是 重新 创建 一 个 新 对 象 。 

“最 近 ” 的 默认 意义 是 缓存 15 个 正则 表达 式 。 如 采 循 环 中 使 用 的 正 
则 表达 式 超过 15 个 ， 则 第 16 个 正则 表达 式 会 取代 第 1 个 ， 所 以 进入 下 
一 轮 循环 时 ， 第 一 个 正则 表达 式 已 经 不 在 缓存 中 ， 必 须 重新 生成 。 

如 果 上 默认 值 15 太 小 ， 可 以 这 样 调整 : 

Regex.CacheSize=123 

如 果 项 望 茜 用 缓存 ， 可 以 将 其 设置 为 0。 


文 持 图 数 


Support Functions 

除了 之 前 讨论 过 的 便捷 函数 ， 还 有 一 些 静 态 的 文 持 函 数 : 

Regex.Escape(string) 

Regex.Escape (...) 返回 此 字符 串 的 副本 ， 其 中 的 元 字符 会 进行 转 
义 。 这 样 处 理 的 字符 串 就 能 够 作为 文字 字符 串 供 正则 表达 式 使 用 。 

例如 ， 如 采用 户 的 输入 保存 在 字符 串 SearchTerm 中 ， 我 们 可 以 这 样 


构建 正则 表达 式 : 
Dim UserRegex as Regex = New Regex("*" & Regex.Escape(SearchTerm) & "$", 


RegexOptions. IqnoreCase) 


IE, FPR AO FE AS eC ARE To WR MR 
KAP RATS: -) °, WAME AreumentException Hs (419) ° 

Regex.Unescape(string) 

IX SBA RATE, ERE S FEB RBI FRIAR 
不 过 要 处 理 其 中 的 元 字符 ， 去 掉 其 他 的 反 斜 线 。 如 末 输 入 的 是 ^\: \- 
\)，， 返 回 值 就 是 ‘::; -) ’ 

字符 缩 略 表示 法 也 会 被 解 钻 。 接 收 的 字符 串 中 的 An' 会 家 替换 为 换 
行 符 ，%ul234: 会 被 替换 为 对 应 的 Unicode 字 符 。 第 407 页 列 出 的 所 有 字 
符 缩 略 表示 法 都 会 被 处 理 。 

我 想象 不 出 Regex.Unescape 有 多 么 重要 的 价值 ， 不 过 了 解 转 义 规 
定 的 用 户 也 许 能 把 它 当 作 生 成 VB 字符 串 的 通用 工具 。 

Match.Empty 

此 函数 返回 代表 匹配 失败 的 Match 对 象 。 它 的 用 处 可 能 在 于 ， 如 果 
初始 化 的 某 个 Match 对 象 将 来 不 一 定 会 补 用 到 ， 但 又 必须 能 够 查询 。 这 
里 有 个 简单 的 例子 : 


Dim SubMatch as Match = Match.Empty ' 初 始 化 一 个 Match， 但 下 面 不 一 定 会 设 定 


Dim Line as String 
For Each Line in EmailHeaderLines 
! 如 果 这 是 标题 ， 保 存 匹配 的 信息 ， 
Dim ThisMatch as Match = Regex.Match(Line, "“Subject:\s*(.*)", _ 
RegexOptions.IgnoreCase) 


If ThisMatch.Success 
SubMatch = ThisMatch 
End If 


If SubMatch.Success 

Console.WriteLine (SubMatch.Result ("The subject is: $1")) 
Else 

Console.WriteLine("No subject!") 
End If 


如 果 字 符 串 数组 EmailHeaderLines 没 有 任何 行 (或 者 没有 Subject 
行 ) ， 程 序 中 的 循环 就 不 会 设置 SubMatch， 如 果 SubMatch 没 有 初始 
化 ， 循 环 之 后 检查 SubMatch 会 得 到 一 个 空 引 用 异常 。 这 种 情况 下 用 
Match.Empty 来 初始 化 就 很 方便 。 

Regex.CompileToAssembly(...) 

它 容许 用 户 创造 一 个 装配 件 (assembly) ， 封 装 正则 表达 式 
p=: S 


a 
Be 


.NET 高 级 话题 


Advanced.NET 

下 面 的 内 容 涉 及 某 些 尚未 介绍 过 的 特性 通过 正则 装配 件 (regex 
assemblies) 构建 正则 表达 式 库 ， 使 用 .NET 专 属 的 特性 匹配 舱 套 结构 ， 
以 及 对 Capture 对 象 的 讲解 。 


正则 表达 式 装 配件 


Regex Assemblies 

.NET 能 够 把 Regex 对 象 封装 到 装配 件 (assembly) 中 ， 在 构建 正则 
表达 式 库 时 这 很 有 用 。 下 一 页 的 补充 内 容 提供 了 示例 。 

运行 补充 内 容 中 的 例子 ， 能 够 在 当前 工程 的 bn 代码 目录 下 创建 
JfriedlsRegexLibrary.DLL 。 然后 我 们 可 以 通过 Visual Studio.NET 的 
Project > Add Reference 将 其 加 入 ， 在 其 他 工程 中 使 用 这 个 装配 件 。 

要 使 用 六 配件 中 的 类 ， 甫 先 必须 导入 : 

Imports jfried] 


然后 整 可 以 像 其 他 任何 类 一 样 引用 它们 ， 例 如 : 


Dim FieldRegex as CSV.GetField = New CSV.GetField ' 生 成 新 的 regqex 对 象 


ETT 


Dim FieldMatch as Match = FieldRegex.Match (Line) ' 应 用 到 字符 串 ... 
While FieldMatch.Success 
Dim Field as String 
If FieldMatch.Groups (1) ,Success 
Field = FieldMatch.Groups ("QuotedField") ,Value 


Field = Regex.Replace(Field, """"™™", """™™) 把 连 在 一 起 的 引号 替换 为 单个 引号 
Else 

Field = FieldMatch.Groups ("UnquotedField") .Value 
End If 
Console.WriteLine("(" & Field & "]") 


! 现在 可 以 处 理 ' Field'... 
FieldMatch = FieldMatch.NextMatch 
End While 


在 这 个 例子 中 ， 我 仅仅 从 jfriedl namespace 导入 ， 但 也 可 以 很 简单 
地 从 jfiedl.CSV namespace 导 入 ， 然 后 这 样 创建 Regex 对 象 : 


Dim FieldRegex as GetField=New GetField' 生 成 新 的 regex 对 象 
这 是 两 种 风格 。 


通过 装配 件 构建 自己 的 正则 表达 式 库 


这 个 例子 构建 了 一 个 小 规模 的 正则 表达 式 摩 。 完 吾 的 程序 构建 了 一 个 装配 件 (DLL)， 
其 中 包含 三 个 已 经 生成 的 Regex 鬼 造 夯 数 : jfriedl.Mail.Subject, jfriedl.Mail. 
From fe jfriedl.CSV.GetField, 


HERRA, —RLEWNG, REMA t ATE T E E R 
(promise)， 请 注意 ， 这 里 不 需要 设 定 RegexDptions.Compiled， 因 为 在 构造 装配 件 
时 已 经 隐 含 地 设 定 了 。 


关于 如 何 使 用 构建 好 的 芍 配 件 ， 请 参考 第 434 页 ， 


Option Explicit On 
Option Strict On 


Imports System.Text.RegularExpressions 
Imports System.Reflection 


Module BuildMyLibrary 
Sub Main () 
” 下面 调 用 regexCompliationInfo 时 提供 了 pattern、regex 选项 ， 类 内 部 的 名 称 ， 类 名 、 
“以 及 一 个 Boolean ARRET public, 举例 来 说 ， 疲 使 用 第 一 个 类 ， 
* 程序 必须 使 用 装配 件 中 "jfrieadl.Mail.Suobject" 作 为 Regex Wit 3H, 
Dim RCInfo() as RegexCompilationInfo = { 
New RegexCompilationInfo ( 
“*Subject:\s*(.*)", RegexOptions.IgnoreCase, 
"Subject", “jfriedl.Mail", true), 
New RegexCompilationInfo( 
““From: \s*(.*)", RegexOptions.IgnoreCase, 
“From", “jfriedl.Mail", true), 
New RegexCompilationiInfo( 
"\G(?271,) 
MiC2s 
" (3# 或 者 是 双 引 号 字段 ..。) 
"" (2# 起 始 双 引号 ) 
(2<QuotedField> (2> [^0"]+ | wnw J» ) 
"n (3# SRR ) 
FE ces» |} 
| 
(3?# 。。. 非 引号 7/ 非 运 号 文本 。,。) 
(?<UnquotedField> [*"",]*) 
a) Lea 
RegexOptions.IgnorePatternWhitespace, 
"GetField", “jfriedl.csv", true) 


:CR TT BH @-8 <= g 


rerr rr Ph SH a 


} 
?现在 进行 主要 的 处 理 . 生成 结果 ... 
Dim AN as AssemblyName = new AssemblyName () 
AN.Name = “JfriedlsRegexLibrary" ‘DLL 文件 的 名 字 
AN.Version = New Version("1.0.0.0") 
Regex.CompileToAssembly(RCInfo, AN) Hs EA 
End Sub 
End Module 


也 可 以 不 进行 任何 导入 ， 而 是 直接 使 用 : 

Dim FieldRegex as jfriedl.CSV.GetField=New jfriedl.CSV.GetField 

这 有 点 麻烦 ， 但 是 清楚 地 说 明了 对 象 的 出 处 。 同 样 ， 这 只 是 风格 
的 问题 。 


DLAC REY 


Matching Nested Constructs 


微软 提供 了 一 种 创新 的 功能 ， 专 门 用 于 匹配 对 称 的 结构 (长 期 以 


来 ， 正 则 表达 式 对 此 无 能 为 力 ) 。 它 理解 起 来 并 不 容易 一 一 本 节 篇 幅 
不 长 ， 但 请 注意 ， 其 中 的 内 容 分 量 不 少 。 
最 简单 的 办 法 束 是 用 一 个 例子 来 说 明 : 
Dim R As Regex = New Regex( " \( & 
" (?> ' & o 
' [^()]+ '& 
" | if & 可 
' \( (?<DEPTH>) "& | 
' | ' & E 
: \) (?<-DEPTH>) ' å 
)* & 
m (? (DEPTH) (?!)) "& 
" \) n 


RegexOptions.IgnorePatternWhitespace) 

E EEZ AE He Tk BRS, A w 
‘before (nope (yes (here) okay) after’ 中 用 下 画 线 标注 的 部 
分 。 第 一 个 开 括 号 不 会 匹配 ， 因 为 它 没有 对 应 的 闭 括号 。 

这 里 简要 说 明了 程序 的 工作 原理 : 

1. 每 匹配 一 个 (超过 正则 表达 式 开 头 N G) 0, | (< 
DEPTH>) | 会 把 正则 表达 式 保 存 的 当 

前 括号 般 套 深度 值 加 1。 

2. 每 匹配 一 个 ) °, | (2? <-DEPTH>) ， 会 把 深度 减 1。 


3.' (2 (DEPTH) (? ! ) ) ,确保 最 后 的 \) | 匹配 时 ， 深 度 
应 该 为 0。 

因为 引 警 的 回溯 堆栈 保存 了 当前 匹配 成 功 分 组 的 信息 ， 这 个 办 法 
没有 问题 。”(? <DEPTH>) | 只 是 使 用 了 命名 捕获 的 ”() j, È 
总 是 能 成 功 匹配 。 因 为 它 紧 跟 在 \ (, 之 后 ， 它 的 成 功 匹配 (此 信息 会 
保存 在 堆栈 中 ， 直 到 出 栈 为 止 ) 用 于 标记 开 括号 的 数目 。 

因此 ， 当 前 已 经 成 功 匹配 的 'DEPTH' 分 组 总 数 就 保存 在 回溯 堆栈 
中 。 我 们 希望 在 找到 闭 括号 之 后 减 去 它们 。.NET 独 有 的 ”(? <- 
DEPTH>) | 结构 ， 会 从 堆栈 中 去 掉 最 近 的 “successful DEPTH” 标 记 。 
如 果 不 存在 这 样 的 标记 ，' (? <-DEPTH>) ， 就 会 报告 失败 ， 整 个 
正则 表达 式 的 匹配 宣告 失败 。 

最 后 的 ”(? (DEPTH) (? ! ) ) | 是 一 个 普通 的 条 件 判断 ， 如 
果 ‘DEPTH’ 分 组 匹配 成 功 它 会 应 用 「 (? ! ) | 。 如 果 在 程序 运行 到 此 
处 时 选择 应 用 此 分 文 ， 就 表示 还 存在 未 匹配 的 开 括号 。 果 真如 此 的 
话 ， 我 们 就 需要 退出 匹配 〈 我 们 不 希望 匹配 不 对 称 的 序列 ) 所 以 我 们 
用 否定 型 顺序 环视 2 ! ) | 来 做 检查 ,确保 匹配 失败 。 

看 到 了 吗 ? 这 就 是 .NET 正 则 表达 式 匹 配 欣 套 结 构 的 原理 。 


Capture 对 象 


Capture Objects 

.NET 的 对 象 模 型 中 还 包括 Capture 对 象 ， 之 前 一 直 没 有 介绍 过 。 依 
视角 的 不 同 ， 它 可 能 为 匹配 结果 增加 了 新 的 观察 角度 ， 也 可 能 是 增加 
把 结果 弄 得 更 糟 。 

Capture 对 象 几乎 等 价 于 Group 对 象 ， 因 为 它 表 示 一 组 捕获 型 括号 
匹配 的 文本 。 与 Group 对 象 一 样 ， 它 提供 了 Value (匹配 的 文本 ) 
Length (匹配 文本 的 长 度 ) ， 以 及 Index (匹配 文本 在 目标 字符 串 中 的 
偏 移 值 ， 编 号 从 0 开始 ) 。 

Group 对 象 和 Capture 对 象 的 主要 差别 是 ， 每 个 Group 对 象 都 包含 了 
一 组 Captures ， 分 别 对 应 到 匹配 过 程 中 各 分 组 的 未 确定 匹配 

(intermediary match) ， 以 及 该 分 组 最 终 匹 配 的 文本 。 


看 下 面 这 个 例子 : 

Dim M as Match=Regex.Match( " abcdefghijk " , 人 ^(..)+ " ) 

正则 表达 式 匹配 了 5 组 (..) ，， 包 括 了 字 符 串 中 的 绝 大 多 数字 符 
abcqefghijk，， 因 为 加 号 在 括号 外 面 ， 加 号 控制 的 每 次 迭代 都 会 重 
新 捕获 ， 这 个 捕获 型 括号 最 后 保存 的 是 字 (也 就 是 说 ，M.Groups 
(1) .Value 等 于 和 j') 。 相 反 ，M.Groups (1) 同样 包含 一 组 Capture， 
它们 对 应 到 ”【..) | 的 匹配 过 程 : 


M.Groups (1) .Captures (0) .Value is ‘ab’ 
M.Groups (1) .Captures(1) .Value is ‘cd’ 
M.Groups (1) .Captures (2) .Value is ‘ef’ 
M.Groups(1).Captures(3).Value is ‘gh’ 
M.Groups (1) .Captures (4) .Value is ‘ij’ 
M.Groups(1).Captures.Count is 5. 


你 也 许 会 注意 到 ， 最 后 匹配 的 和 守 等 同 于 最 终 全 局 匹配 中 的 
M.Groups (1) .Value。 看 起 来 ，Group 的 Value 就 是 本 分 组 最 终 匹 配 文 
本 的 简 记 法 。M.Groups (1) .Value 是 : 

M.Groups (1).Captures(M.Groups(1).Captures.Count-1).Value 

天 于 Capture， 还 要 讲 几 点 

eM.Groups (1) .Capture 是 一 个 CaptureCollection ， 与 普通 的 集 
类 (collection) 一 样 ， 它 包含 了 Items 和 Count 必 性。 不过， 通 EX 、 
不 会 使 用 这 两 个 属性 ， 而 是 通过 索引 值 直接 访问 ， 例 如 M.Groups 

(1) .Captures (3) (4 C 世 中 是 M.Groups[1].Captures[3]) ° 
e Capture 对 象 没有 Success 方 法 ， 如 果 需 要 ， 请 测试 Group 的 


Success ° 


e 到 现在 ， 我 们 已 经 看 到 ，Capture TRE Group 对 象 内 部 可 用 。 
Match 对 象 也 有 Captures 属性 ， 尽 管 涌 出 并 不 大 。M.Captures 可 以 直接 
访问 编号 为 0 的 分 组 的 Captures 属 性 (也 就 是 说 M.Captures 等 价 于 
M.Groups (0) .Captures) 。 因 为 编号 为 0 的 分 组 表示 整个 匹配 ， ai 
不 会 有 “遍历 ”匹配 的 迭代 ， 所 以 编号 为 0 的 捕获 集合 类 只 有 一 
Capture? 因为 它们 包含 与 编号 为 0 的 匹配 同样 的 信息 ， a 
M.Groups (0) .Captures 并 不 是 很 有 用 。 


.NET 的 Capture 对 象 是 一 种 创新 ， 但 是 因为 与 对 象 模型 “集成 过 度 
(overly integrated) ”， 使 用 起 来 反而 更 复杂 ， 而 且 令 人 迷惑 。 在 仔细 
参阅 了 .NET 的 文档 ， 并 真正 理解 了 这 些 对 象 之 后 ， 我 感觉 这 种 做 法 有 
利 也 有 弊 。 一 方面 ， 我 乐于 看 到 这 种 创新 。 虽 然 它 的 用 法 并 不 会 马上 
显现 出 来 ， 但 这 或 许 是 因为 一 直 以 来 我 都 习惯 于 用 传统 的 正则 表达 式 
特性 来 思考 问题 。 

男 一 方面 ， 在 匹配 过 程 中 的 额外 的 分 组 ， 匹 配 完 成 之 后 把 它们 封 
装 到 一 个 对 象 中 ， 似 乎 降低 了 效率 ， 我 并 不 希望 降低 效率 ， 除 非 要 得 
到 额外 的 信息 。 增 加 的 Capture 分 组 在 大 多 数 匹 配 中 不 会 用 到 ， 但 是 照 
目前 的 情况 来 看 ， 生 成 Match 对 象 时 会 构建 所 有 的 Group 和 Capture 对 
象 (以 及 它们 相关 的 GroupCollection 和 CaptureCollection 对 象 ) 。 所 以 
无 论 是 否 需 要 ， 它 们 都 在 那里 ， 如 果 你 能 够 发 现 Capture 对 象 的 使 用 价 
值 ， 束 不 要 放 过 。 


3102 PHP 


PHP 

20 世 纪 90 年 代 末 期 Web 的 迅猛 发 展 导 致 了 PHP 的 爆炸 性 流行 ， 并 
一 直 持 续 至 今 。PHP 得 以 流行 的 理由 之 一 是 ， 即 使 非 专 业 人 员 ， 只 需 
要 稍 作 准备 ， 束 能 使 用 PHP 的 基本 功能 。 除 此 之 外 ，PHP 还 提供 了 颇 
受 开 发 老手 欢迎 的 众多 高 级 特性 和 函数 。PHP 当然 能 够 支持 正则 表达 
式 ， 而 且 提 供 了 至 少 3 套 独立 的 ， 不 相关 的 正则 引擎。 

PHP 的 三 种 正则 引 警 是 “preg”、“ereg” 和 “mb_ereg”。 本 书 介 绍 的 
是 preg 引擎 提 供 的 函数 。 它 使 用 NFA 引擎 ， 通 常情 况 下 ， 在 速度 和 
功能 方面 都 要 强 于 其 余 两 者 (“preg” 读 作 “p-reg”) 。 

与 之 前 各 章 的 联系 在 开始 本 章 之 前 ， 读 者 必须 知道 ， 本 章 的 内 容 
强烈 依赖 于 第 1 至 6 章 介 绍 的 基础 知识 。 如 果 读 者 只 对 PHP 感 兴趣 ， 可 
能 会 直接 从 本 章 开 始 阅读 ， 但 我 还 是 希望 他 们 认真 地 看 一 看 前 言 CC 
其 是 关于 体例 ) 和 前 面 的 章节 : 第 1、2、3 章 介 绍 了 与 正则 表达 式 相 
关 的 基本 概念 、 特 性 和 技术 ， 第 4、5、6 章 介 绍 了 一 些 理解 正则 表达 
式 的 天 键 知识 ， 它 们 可 以 直接 应 用 到 PHP 的 正则 表达 式 中 。 前 几 章 讲 
解 的 重要 概念 包括 NFA 引 擎 进行 匹配 基本 原理 ， 匹 配 优先 特性 、 回 漳 
AIBA © 

接 下 来 我 要 强调 ， 除 了 用 于 速 查 列表 一 例如 本 章 的 第 407 页 ， 和 
第 3 章 从 第 114 页 到 第 123 页 ， 我 并 不 希望 这 本 书 成 为 一 本 参考 手册 ， 而 
希望 它 成 为 精通 正则 表达 式 的 详细 教科 书 。 

本 章 开 始 简 要 介绍 了 preg 引 警 的 历史 ， 然 后 介绍 它 的 正则 流派 。 
接 下 来 的 几 和 详细 考察 了 preg 函 数 的 接口 ， 然 后 是 关于 preg 的 效率 问 
题 ， 最 后 是 扩展 示例 。 

preg 的 背景 和 历史 preg 这 个 名 字 来 自 接 口 函 数 名 的 前 缀 ， 代 
表 “Perl 的 正则 表达 式 (Perl Regular Expressions) ”。preg 引 警 的 创始 
人 是 Andrei Zmievski， 他 对 当时 作为 标准 的 ereg 套 件 的 诸多 这 肘 相 当 不 
满意 。 (ereg 表 示 “ 扩 展 的 正则 表达 式 ( extended regular 
expressions) ”， 它 能 兼容 POSIX 标 准 ,， “扩展 ”的 意思 是 不 仅仅 限于 一 
个 最 简单 的 正则 流派 ， 但 是 以 今天 的 标准 来 看 ， 还 相当 简陋 ) 。 


Andrei 的 preg 套件 是 一 组 PCRE 〈 即 “Perl 兼容 的 正则 表达 式 ”Perl 
Compatible Regular Expressions) 接口 ， 这 是 一 套 非 常 棒 的 基于 NEFA 的 
正则 表达 式 库 ， 完 整地 模拟 了 Perl 的 语法 和 语意 ， 提 供 了 Andrei 想 要 的 
能 力 。 

在 接触 PCRE 以 前 ，Andrei 先 阅读 了 Perl 的 源 代 码 ， 以 决定 是 否 能 
够 借用 到 PHP 当 中 。 他 显然 不 是 第 一 个 阅读 Perl 的 正则 表达 式 源 代码 
的 人 ， 也 不 是 第 一 个 认识 到 代码 有 多 么 复杂 的 人 。Perl 的 正则 表达 式 
功能 强 ， 速 度 快 ， 源 代码 也 在 许多 年 间 经 过 了 许多 人 的 修改 ， 已 经 超 
出 了 单个 开发 人 员 的 理解 能 

广 运 的 是 ， 剑 桥 大 学 的 Philip Hazel 同 样 已 经 被 Perl 的 正则 表达 式 
的 源 代 码 搞 得 头 型 脑 胀 ， 所 以 他 写 了 PCRE 库 (参见 第 91 页 ) 。 好 在 
Philip 已 经 有 了 现成 的 可 供 模 拟 的 语音， 所 以 若干 年 后 ，Andrei 找到 了 
这 套 编 写 清晰 、 文 档 完 备 、 效 率 出 众 的 库 ， 很 方便 束 能 将 其 绑 定 到 
PHP 中 。 

Perl 随 着 时 间 的 流逝 而 不 断 发 展 ，PCRE 也 是 这 样 ，PHP 亦 然 。 本 
书 针对 的 是 PHP Versions 4.4.3 和 5.1.4， 这 两 者 都 兼容 PCRE Version6.6 

( 注 1) 。 

如 宁 你 不 吐 悉 PHP 的 版 本 信息 ， 清 注意 4.x 和 5.x 是 同时 维护 的 ， 而 
5.x 进 行 了 大 规模 的 扩展 。 因 为 两 个 系列 是 分 开 维 护 和 发 布 的， 很 可 能 
某 个 5.x 的 版 本 所 用 的 PCRE 的 版 本 要 低 于 更 晚 发 布 的 4.x 版 本 。 


PHP 的 正则 流派 


PHP's Regex Flavor 
3210-1: PHP preg 的 正则 流派 


OS 
#115 (c) | \a [\b] \e \E \n \r \t \octal\xhex \xthex} \echar 


118 (c) Fite: pel [^e] (TRSRSBHH 125) 
#119 几乎 任何 字符 : 点 号 (根据 模式 的 不 同 ， 有 各 种 含义 ) 
* 120 (u) Unicode 混合 序列 : \X 

120 (c) 字符 组 缩 略 表示 法 8?;，\w \d \s \W \D \S( 只 针对 8 aa)” 
121 (c) (u) Unicode 局 性 和 区 块 ; \p{Prop} \P{Prop} 

* 120 单个 字 节 (THA ZH) “: \c 

错 点 及 其 他 零 长 度 断 言 

129 行 /字符 囊 起 始 位 置 : * \A 

#129 HFE RGR: $ \z \2 

#130 当前 匹配 的 起 始 位 置 : \G 

#133 Hil PRA: \b \B( 只 针对 8 FH)” 

#133 环视 结构 *: (?=…) (?1…) (?<=…) (?<!…) 


注释 及 模式 修饰 符 
模式 修饰 符 : (2mods-mods) 容许 出 现 的 模式 ; x” smi XU 


注释 : (?#…) (只 在 模式 修饰 罕 x 下 有 效 ， 从 “# RTH AAR AKA) 


分 组 及 捕获 

7446 WRI: (+) NI ND 

#446 命名 捕获 : (?E<namie>…) (?P=name) 

#137 仅 分 组 的 括号 (22+) 

w 139 固化 分 组 : (?>…) 

#139 $ itti: | 

475 递归 ; (?R) (?num) (?P>name) 

140 条 件 判 断 ; (if then|elsey— “if” TVA, (num) & (name) 
14) 匹配 优先 量词 ; * +? (n} {n,} {x,y} 

wigi AREE: *2 +? ?? {n}? {n,}? {x,y}? 

#142 占有 优先 量词 : t+ ++ 24 {nj+ (n,}+ {x,y}+ 

* 136 (c) 文字 (AFH) UM: \Q\E 

(¢) ——TAF FH MAH OO Li 


(u) — R ES RAM HH u 5k 
(AAP AGE AF PHP preg $ tirik JA iE AA AE PCRE) 


前 页 的 表 10-1 简 要 介绍 了 preg 引 警 的 正则 流派 。 下 面 是 补充 说 明 : 

D 只 有 在 字符 组 内 部 ，\b 才 表示 退 格 符 。 在 其 他 场合 ，\b 匹 配 单词 
分 界 符 (133) ° 

十 进 制 转 义 只 能 使 用 两 到 三 位 八 位 数值 。 特 殊 的 一 位 数 \0 ,序列 
匹配 空 字 节 (NUL byte) 

Mxhex, 容许 出 现 一 到 两 位 十 六 进 制 数 字 ， 而 '\x{hex}, 容许 任意 
多 个 数字 。 请 注意 ， 大 于 \x{FF} 的 数值 只 能 与 模式 修饰 符 u 连 用 OS 
447) 。 如 果 没 有 模式 修饰 符 u， 大 于 \x{FF} 的 值 会 导致 正则 表达 式 非 
法 。 

@ 即使 是 在 UTF-8 模 式 下 (通过 模式 修饰 符 u) ， 单 词 分 界 符 和 字 
符 组 简 记 法 ， 例 如 "ww, ， 也 只 对 ASCII 字 符 起 作用 。 如 果 需 要 处 理 所 
有 的 Unicode 字 符 ， 请 使 用 \pL， (121) 代替 \w| ， 用 '\pN | RË 
hdj, FA pz 代替 ns] e 

@ Unicode x ##£TXT Unicode Version 4.1.0 ° 

Unicode FÈK (122) LEDE RAEM Is’ RE In’ BIR, PAO 
'\p{Cyrillic} , ° 

PHP 同时 支持 单字 母 或 双 字 母 Unicode 属性 ， 例 如 '\p{Lu}, > 
i\p{L}， ， 其 中 "\pL | 作为 单字 母 属性 名 (7121) 。 而 不 支持 
‘\p{Letter}, 之 类 的 长 名 称 。 

PHP 也 支持 特殊 的 \p{L&}， (121) , LAR '\p{Any}, (表示 任 
意 字符 ) 

@ 在 默认 情况 下 ，preg 套件 的 正则 表达 式 是 以 字 节 为 单位 的 ， 所 
以 \C 默认 就 等 价 于 『「 Cs: .) | ， 由 s 修 饰 的 点 号 。 不 过 ， 如 果 使 
用 了 修饰 符 u， 则 preg 套件 就 会 以 UTF-8 字 母 为 单位 ， 也 就 是 说 ， 一 个 
字符 可 能 由 6 个 字 节 组 成 。 即 使 这 样 ，\C | 仍然 匹配 单个 字 节 。 请 参 
考 第 120 页 的 注意 事项 。 

© '\z, 和 '\zZ | 都 能 够 匹配 字符 串 的 末尾 ， 而 \zZ， 同样 能 够 匹配 
最 后 的 换行 符 。 


[$ 的 意义 取决 于 模式 修饰 符 m 和 D (446) : 如 果 没 有 设 定 任 
何 修饰 符 ， '$, 等 价 于 \zZ， (在 字符 串 结 尾 的 换行 符 ， 或 者 是 字符 串 
结尾 ) ; 如 果 使 用 了 m， 则 它 能 够 匹配 内 舱 的 换行 符 ， 如 果 使 用 了 模 
式 修饰 符 D， 它 能 够 匹配 \z， (只 有 在 字符 串 的 结尾 ) 。 如 果 同 时 设 
置 了 m 和 D， 则 忽略 D。 

© 逆序 环视 中 使 用 的 子 表达 式 只 能 匹配 固定 长 度 的 文本 ， 除 非 顶 
层 多 选 分 支 容许 不 同 的 固定 长 度 (133) ° 

D 模式 修饰 符 x (自由 格式 和 注释 ) 只 能 识别 ASCII 的 空白 字符 ， 
不 能 识别 Unicode 中 的 空白 字符 。 


Preg Hate oO 


The Preg Function Interface 

PHP 正 则 引擎 的 处 理 方式 完全 是 程序 式 的 (G95) ,包括 表 10-2 顶 
端的 6 个 函数 ， 表 格 还 列举 了 4 个 有 用 的 函数 ， 将 在 本 章 后 面 提 到 。 

表 10-2: PHP Preg žo 

用 途 
测试 正则 表达 式 能 否 在 字符 事 中 找到 匹配 ， 并 提取 数据 
从 字符 事 中 提取 数据 
在 字符 串 的 副本 中 替换 匹配 的 文本 
对 字符 串 中 的 每 处 匹配 文本 调用 处 理 函 数 
将 字符 串 切 分 为 子囊 数组 
选 出 数组 中 能 /不 能 由 表达 式 匹 配 的 元 素 
转 义 字符 事 中 的 正则 表达 式 元 字符 
下 面 四 个 函数 在 本 章 中 开发 完成 ， 列 在 此 处 方便 查询 
#454 reg match 类 似 Preg_match， 但 能 识别 出 为 参与 匹配 的 持 号 
#472 preg regex to pattern | 根据 正 划 表达 式 字符 事 生成 preg pattem FA $ 
检查 preg pattern 字符 囊 的 语法 错误 
检查 正则 表达 式 字符 事 的 语法 错误 


每 个 函数 的 具体 功能 都 取决 于 参数 的 个 数 、 标 志 位 (flag) ， 以 及 
正则 表达 式 所 使 用 的 模式 修饰 符 。 在 深入 细节 之 前 我 们 先 通过 几 个 例 
子 来 看 看 PHP 中 的 正则 表达 式 的 例子 和 处 理 方 式 。 

/* 测试 HTML tag 是 否 <table> tag */ 


if (preg match('/^<table\b/i', Stag) ) 
print "tag is a table tag\n"; 


¥ 449 preg match 

7453 preg match all 

F458 preg replace 

#463 preg replace callback 
#465 preg split 

7469 preg grep 


7470 preg quote 


7474 preg pattern error 


7475 preg regex error 


/* 测试 文本 是 否 为 整数 */ 
if (preg_match('/*-?\d+$/', Suser_input) ) 
print "user input is an integer\n"; 


/* 从 字符 串 中 取出 HTML title */ 
if (preg match('{<title>(.*?)</title>}si', $html, $matches)) 


print "page title: Smatches([1]\n"; 


/* 将 字符 事 中 的 数值 作为 华氏 温度 ， 将 其 替换 为 摄氏 温度 */ 

$metric = preg replace('/(-?\d+(?:\.\d+)?)/e', /* pattern */ 
"floor (($1-32)*5/9 + 0.5)", /* 替换 代码 * 
$string); 


Aat 人 字符 事 数 组 */ 


AE oi ipio ay = preg_split('!\s*,\s*,!', $comma separated values) ; 


最 后 的 程序 如 果 输 入 ‘Larry，:Curly，* Moe"， 返 回 三 个 元 素 的 数 
组 : ‘Larry’, ‘Curly’ H Moe’ ° 


“pattern” Ei 


"Pattern" Arguments 

Ar preg EK ALA nA patten, ERARE EEATT 
隔 符 之 内 ， 可 能 还 跟 有 模式 修饰 符 。 在 上 面 的 第 一 个 例子 中 ，pattern 参 
数 是 <table\b/* ， 也 就 是 包含 在 一 对 斜 线 (分 隔 符 ) EAH T< 
table\b，， 然 后 是 模式 修饰 符 i (不 区 分 大 小 写 的 匹配 ) 。 

PHP 单 引号 字符 串 

因为 正则 表达 式 很 有 可 能 包含 反 斜 线 ，， 所 以 在 以 字符 串 文 字 方 
式 提 供 pattern 参 数 时 ， 最 好 使 用 pHP 的 单 引号 字符 串 。 o 第 3 章 介 绍 了 
PHP 的 字符 串 文 字 (©5103) ， 简 单 地 说 ， 如 果 使 用 单 引 号 字符 串 文 
本 ， 正 则 表达 式 就 可 以 省 略 许多 额外 的 转 义 。PHP 的 单 引号 字符 上 只 
有 两 个 元 序列 ，^\*” 和 ^， 分 别 代表 单 引 号 和 反 斜 线 。 

有 一 种 转 义 需要 特别 注意 ， 就 是 在 正则 表达 式 中 使 用 N 匹配 一 
个 反 和 斜 线 字符 。 在 单 引 号 字符 串 中 ， 每 个 | 都 应 表示 为 \， 所 以 AN 
吏 成 了 \N\。 四 个 反 斜 线 才能 匹配 一 个 反 斜 线 字 符 ， 这 真神 奇 ! 

(473 页 有 反 和 斜 线 繁复 到 极端 的 例子 。) 


举 个 具体 的 例子 ， 用 正则 表达 式 匹配 Windows 系 统 中 的 分 区 名 ， 例 
如 ‘C: v。 可 以 用 正则 表达 式 !A[A-Z]: W$, ERJAS EBZREN 
字 就 是 A[A-Z]: Wg ° 

第 5 章 第 190 页 有 一 个 例子 ，“^. 类 \| 作为 pattern 字 符 串 时 应 该 写 
成 .类 \V， 使 用 3 个 反 斜 线 。 照 此 类 推 ， 我 找到 这 几 个 例子 : 


print TANAT7 WE. ASANI 
print. 1AA NA 输出 /^.xNV/ 
站 NA 输出 /*.*\\/ 


print TANANNNAOT 输出 AZ 


头 两 个 例子 尽管 方式 不 同 ， 结 有 果 却 是 一 样 的 。 在 第 一 个 例子 中 ， 
结尾 的 "对 于 单 引 号 字符 串 文 字 并 不 是 特殊 文本 ， 所 以 它 融 等 于 字符 
串 的 值 。 第 二 个 例子 中 ， 信 对 于 字符 串 文字 来 说 有 特殊 侣 义 ， 所 以 输 
出 的 字符 串 中 出 现 单个 履 。 它 与 后 面 的 字符 CR) 放 在 一 起 ， 得 到 
与 第 一 个 例子 同样 的 VM*。 同 样 的 道理 ， 第 三 个 和 第 四 个 例子 也 会 得 到 
同样 的 结果 。 

当然 ， 你 也 可 以 使 用 PHP 的 双 引 号 字符 串 文 本 ,但 是 它们 要 麻烦 许 
多 。 它 们 支持 许多 字符 串 元 序列 ， 这 些 在 正则 表达 式 字 符 串 中 都 必须 
特殊 处 理 。 

分 隅 符 

preg 引 擎 要 求 正则 表达 式 两 问 必 须 有 分 隔 符 ， 因 为 设计 着 布 望 它 看 
起 来 更 像 Perl， 尤 其 在 模式 修饰 符 的 使 用 方法 上 更 是 如 此 。 有 的 程序 员 
项 得 在 正则 表达 式 两 端 添加 分 隔 符 们 直 十 多 此 一 举 ， 但 古 无 论 好 还 是 
不 好 ， 规 定 就 是 规定 (第 448 也 给 出 了 一 个 “不 好 ”的 原因 ) 。 

常见 的 做 法 是 使 用 冬 线 作为 分 阳 符 ， 不 过 我 们 还 可 以 用 除了 子 
` 数 子 、 反 斜 线 和 空白 字符 之 外 的 任何 ASCI 子 符 做 分 阳 特 。 最 常见 
的 是 一 对 斜 线 ， 但 两 个 ‘! ;和 ' 妇 ?也 很 常见 。 

如 果 第 一 个 分 隅 符 表示 “ 开 (opening) ” 

{(< [ 

对 应 的 “ 团 ” 分 阳 符 束 古 : 

H>] 


OO AR E Fk PE ic OT” BY od PR Ar, ot BR ArT BE REPT 
Dit ( (d+) ) :也 可 以 用 作 pattern 字 符 串 。 其 中 ， 外 面 的 括号 是 模式 字 
符 串 分 隔 符 ， 内 部 的 括号 属于 分 隔 符 之 内 的 正则 表达 式 。 为 了 清晰 起 
见 ， 我 会 避免 这 种 情况 ， 使 用 简单 易 懂 的 %/ (d+) 7° o 

pattern 字 符 串 内 部 可 以 出 现 转 义 的 分 隔 符 ， 所 以 V<B> (.*? ) 
<VB> 主 并 没有 错 ， 不 过 换 一 组 分 隔 符 可 能 看 得 更 清 芭 ， 例 如 <B 


> (X? ) </B>! PEA! ...! :作为 分 隔 符 ,而 {<B> (x? ) 
</B> }i't®AA‘{...}7 © 
模式 修饰 符 


在 结束 分 隔 符 之 后 可 以 跟随 多 种 模式 修饰 符 (用 PHP 的 术语 来 说 ， 
叫做 pattern modifier) ， 在 某 些 情况 下 ， 修 饰 符 也 可 以 出 现在 正则 表达 
式 内 部 ， 修 饰 模式 的 某 些 性 质 。 我 们 已 经 在 一 些 例子 中 看 到 过 表示 不 
区 分 大 小 写 的 模式 修饰 符 i。 下 面 简要 介绍 模式 修饰 符 : 


iti 说 有 

i IENE 

m P112 增强 的 行 锚 点 模式 

s TUL 点 号 通 配 模式 

TI 宽松 排列 和 注释 模式 

u | 447 以 UTF-8 读 取 正则 表达 式 和 目标 字符 
X 7-447 启用 PCRE“ 领 外 功能 (extra stuff)” 


#459 将 replacement 作为 PHP 代码 (只 用 于 preg replace) 


s | |w478 启 用 PCRE 的 “study” 优 化 党 试 


下 面 三 个 很 少 用 到 


~ 


U 7447 RMB '+) 和 *31 的 匹配 优先 含义 
A 了 447 将 整个 匹配 党 试 锚 定 在 起 始 位 置 (译注 1) 
5 7447 5 只 能 匹配 EOS， 而 不 是 EOS Ziara 


(如 果 使 用 了 模式 修饰 符 m 则 不 会 这 样 ) 


表达 式 内 部 的 模式 修饰 符 在 正则 表达 式 内 部 ， 模 式 修 饰 符 可 以 单 
独 出 现 ， 来 启用 或 停 用 某 些 特性 (例如 用 ' (2 i) | 来 启用 不 区 分 大 小 


写 的 匹配 ,用 (2 -i) | 来 停 用 135) 。 此 时 ， 它 们 的 作用 范围 持续 
到 对 应 的 结束 括号 ， 如 采 不 人 存在， 区 持续 到 正则 表达 式 的 末尾 。 

他 们 也 可 以 用 作 模 式 修饰 范围 (135) ， 例 如 ”(? i: ...) | 表 
示 对 此 括号 内 的 内 容 进行 不 区 分 大 小 写 的 匹配 ，' (? -sm: ...) | 表 
示 在 此 范围 内 停 用 s 和 m 模 式 。 

正则 表达 式 之 外 ， 结 束 分 隔 符 之 后 的 模式 修饰 符 可 以 以 任何 顺序 
组 织 ， 下 例 中 的 “表示 同时 局 用 不 区 分 大 小 写 和 点 号 通 配 模 式 : 

if (preg_match('{ < title > (. X ?)</title > }si',$html,$captures)) 

PHP 特 有 的 修饰 符 列表 最 上 端的 4 个 模式 修饰 符 属于 标准 修饰 符 ， 
在 第 3 章 (F110) 已 经 讨论 过 。 修 饰 符 e 只 能 在 preg_replace 中 使 用 ， 详 
细 的 讨论 见 对 应 的 小 节 (459) 。 

模式 修饰 符 u 告 诉 preg 引 擎 ， 以 UTF-8 编 码 处 理 正则 表达 式 和 目标 
字符 串 。 此 模式 修 炳 符 不 会 修改 数据 ， 只 是 更 改正 则 引擎 处 理 数据 的 
方式 。 默 认 〈 也 就 是 未 使 用 模式 修饰 符 u) 的 情况 下 ，preg 引 警 认 为 接 
收 的 数据 都 是 8 位 编码 的 (87) 。 如 果 用 户 知道 数据 是 UTF-8 编 码 
的 ， 请 使 用 此 修 吧 符 ， 人 否则 请 不 要 使 用 。 在 UTF-8 编 码 中 ， 非 ASCI 字 
符 以 多 个 字 节 来 存储 ， 使 用 u 修 饰 符 能 够 确保 多 个 字 节 会 被 作为 单个 字 
符 来 处 理 。 

模式 修饰 符 X 启 用 PCRE 的 “额外 功能 (extra stuff) ”， 目 前 它 只 有 
一 个 效果 : 如 果 出 现 了 无 法 识别 的 反 斜 线 序 列 ， 束 报告 错误 。 例 如 ， 
默认 情况 下 ，"\k, 在 PCRE 中 没有 特殊 意义 ， 就 等 价 于 k (因为 这 不 
是 一 个 已 知 的 元 序列 ， 所 以 反 斜 线 会 被 名 略 ) 。 如 果 使 用 了 模式 修饰 
FFX, MER “unrecognized character follows\” ° 

未 来 版 本 的 PHP 可 能 包含 更 高 版 本 的 PCRE， 其 中 当前 没有 特殊 
意义 的 反 斜 线 组 合 可 能 被 赋予 新 的 意义 ， 所 以 为 了 保持 未 来 的 兼容 性 

(以 及 一 般 可 读 性 ) ， 最 好 是 不 要 转 义 不 需要 的 字母 ， 除 非 它们 现在 
有 特殊 意义 。 从 这 个 意义 上 说 ， 模 式 修 饰 符 X 意义 重大 ， 因 为 它 可 以 
发 现 这 样 的 错误 。 

模式 修饰 符 S 调 用 PCRE 的 “study (研究 ) ”特性 ， 预 先 分 析 正 则 表 
达 式 ， 在 某 些 顺 利 的 情况 下 ， 在 尝试 匹配 时 速度 会 大 大 提升 。 本 章 中 
天 于 效率 的 内 容 将 对 此 有 介绍 ， 请 参考 第 478 页 。 


剩 下 的 模式 修饰 符 实用 价值 不 大 ， 也 不 常用 ， 

。 模 式 修饰 符 A 把 匹配 锚 定 在 第 一 次 尝试 的 位 置 ， 就 等 于 整个 正则 
表达 式 以 NG 开头 。 如 果 用 第 4 章 的 汽车 的 类 比 ， 这 就 是 关闭 传动 机 
构 的 “驱动 过 程 ” (148) ° 

。 模 式 修饰 符 D 会 把 每 个 "3, 替换 为 rz， (112) ， 即 r$， 匹配 
字符 串 的 未 尾 ， 而 不 是 字符 串 之 内 的 换行 符 。 

。 模 式 修饰 符 U 交换 元 字符 的 匹配 优先 含义 : Uw, Ae? X 
He "+, 和 [+? | 交换 ， 等 等 。 我 猜 这 个 模式 修饰 符 的 主要 作用 在 于 
制造 混乱 ， 所 以 我 完全 不 推荐 使 用 它 。 


“Unknown Modifier” $iz 


有 时 候 ， 手 类 程序 息 然 会 报告 “Unknown Modifier” 错误 。 我 绞 尽 脑汁 希望 找到 问题 
所 在 ， 景 终 忧 然 大 悟 ， 原 来 自己 在 创 丸 模 式 和 大 数 时 忘 了 添加 分 质 符 ， 
例如 ， 我 可 能 项 望 这 样 区 配 HTML tag: 

preg match('<(\w+) ([^>]*)>', $html) 
我 的 本 总 是 ，'<” 是 正则 表达 式 的 一 部 分 ， 但 preg match 认为 它 是 起 始 分 隔 符 (我 
自己 忘 了 设 定 分 隔 符 , 这 还 能 怪 谁 呢 ?) 。 所 以 ,这 个 参数 被 解释 为 “ 八 凤 ) ([*>]*)>’, 
其 中 的 正则 表达 式 以 赤色 标注 ， 模 式 修饰 符 以 下 画 线 标注 ， 
在 正则 表达 式 中 ，(Vw+) ([^ 是 不 会 法 的 , 但 是 在 发 现 并 报告 错误 之 前 , 正则 引擎 会 斌 
图 将 “1*)>” 解 释 为 一 囊 模式 修饰 竺 ， 但 它们 全 孝 不 是 合法 的 模式 修饰 竺 ， 所 以 ， 当 
然 会 报告 错误 。 


Warning: Unknown modifier ']' 


LA, AGRA DA: 

preg match('/<(\wt) (.*?)>/', $html) 
除非 我 知道 这 里 的 modifier 指 的 是 PHP 的 pattern HR, GU MA Ph tth 
修 符 并 不 能 让 人 明白 ， 所 以 有 时 候 我 得 花 点 时 间 才 能 找到 问题 所 在 ， 每 次 遇 到 这 样 的 
问题 ， 我 都 觉得 自己 很 俊 ， 但 幸运 的 是 ， 没 人 知道 我 会 犯 这 种 低级 的 错误 ， 
$47, PHPS 最 近 版 本 的 报错 信息 改 成 了 这 样 ; 

Warning: preg match(): Unknown modifier ']' 
RALLT AKE, RIALLAR, Rit, FHRMHAFRERSHMASHR 
AZ PHRAMM, DARRAKMOMM, iF HRA: 

preg _match('<(\wt)(.*?)>', $html) 
RERET SOM, E (\we) (.*2)1 仍 然 是 合法 的 正则 表达 式 ， 叭 一 的 毛病 在 于 它 
不 能 匹配 我 期 望 的 结果 。 这 种 错误 不 易 察觉 ， 非 常 灯 手 ， 


Pree KAI 列 


The Preg Functions 


本 市 从 最 基本 的 “这 个 正则 表达 式 能 否 在 字符 串 中 找到 匹配 * 开 
始 ， 详 细 介绍 各 个 函数 。 


preg_match 
使 用 方法 


preg_match(pattern,subject[,matches[, flags [,offset]]]) 
参数 简介 
pattern 分 隔 符 包围 起 来 的 正则 表达 式 ， 可 能 出 现 修饰 符 (S 
444) 。 
subject 需要 搜索 的 目标 字符 串 。 
matches 非 强 制 出 现 ， 用 来 接受 匹配 数据 。 
flags 非 强 制 出 现 ， 此 标志 位 会 影响 整个 函数 的 行为 。 这 里 只 
出 现 一 个 标志 位 ， 
PREG_OFFSET_CAPTURE(© 452). 


offset 非 强制 出 现 ， 从 0 开始 ， 表 示 匹 配 尝试 开 始 的 位 置 (号 
453) 


iF 


返回 值 

如 宁 找 到 匹配 ， 束 返回 true， 否 则 返回 false 。 
讲解 

最 简单 的 用 法 是 : 


preg_match($pattern,$subject) 


如 果 $pattern 在 $subject 中 能 找到 匹配 ， 束 会 返回 true。 下 面 有 几 个 
fal LAG: 


if (preg match('/\. (jpe?g|pngigif|bmp)$/i', $url)) { 
/* BA URL */ 


if (preg match('{*https?://}', Suri)) { 
/* URI Š http Ahttps */ 


if (preg _match('/\b MSIE \b/x', $ SERVER['HTTP_USER_AGENT'])) { 
/* 浏览 器 是 IE */ 
} 


捕获 匹配 数据 

preg_match 的 第 3 个 参数 如 果 出 现 ， 用 来 保存 匹配 结果 的 信 
优 。 用 户 可 以 照 自 己 的 意愿 使 用 任何 变量 ， 不 过 最 常用 的 名 字 是 
$matches。 在 本 书 中 ， 如 果 我 在 特定 的 例子 之 外 提 到 Smatches 指 的 就 
是 “preg_match 接 收 的 第 3 个 参数 ”。 


匹配 成 功 之 后 ，Ppreg_ match 返回 tue， 并 按 如 下 规则 设置 
$matches: 
Smatches [0] 是 正则 表达 式 匹 配 的 所 有 文本 
Smatches [1] 是 第 1 组 捕获 型 括号 捕获 的 文本 
Smatches [2] 是 第 2 组 捕获 型 括号 捕获 的 文本 
如 果 使 用 了 命名 分 组 ，$matches 中 也 会 保存 对 应 的 元 素 (下 一 节 有 
这 样 的 例子 ) 。 


Bom (5191) 曾 出 现 过 这 个 简单 的 例子 : 


/* 输入 完整 路 径 ， 分 离 出 文件 名 */ 
if (preg match('{ / ([^/]+) $}x', SWholePath, S$matches) ) 
S$FileName = S$matches([1]; 


最 好 是 在 preg_match 返 回 true 的 情况 下 用 $matches (随便 你 怎么 命 
名 ) 。 如 果 匹 配 不 成 功 ， 会 返回 false， 或 者 错误 〈 例 如 模式 错误 或 函 
数 标 志 位 设置 错误 ) 。 有 的 错误 发 生 之 后 ，$matches 是 空 数 组 ， 但 也 
有 时 候 它 的 值 不 会 变化 ， 所 以 我 们 不 能 认为 ，$matches 不 为 空 就 表示 
匹配 功 。 


下 面 这 个 例子 使 用 了 3 组 捕获 型 括号 : 
/* 从 URL 中 提取 协议 、 主 机 名 和 说 口 号 */ 
if (preg match("{*(https?):// ([*/:]+) (?: :(\d+) )? }x', $url, $matches) ) 


f 
Í 


Sproto = $matches[1]; 

$host = $matches([2]; 

$port = $matches[3] ? Smatches[3] : ($proto == "http" ? 80 :443); 
print "Protocol: $proto\n"; 


print "Host : $host\n"; 
print "Port : $port\n"; 


数组 结尾 “未 参与 匹配 ”的 元 素 会 被 忽略 

如 果 一 组 捕获 型 括号 没有 参与 最 终 匹 配 ， 它 会 在 对 应 的 gmatches 中 
生成 一 个 空 字符 串 Q2) 。 需 要 说 明 的 是 ，$matches 末 尾 的 空 字符 串 
都 会 被 忽略 。 在 前 面 那 段 程序 中 ， 如 果 ' Od) ， 参 与 了 匹配 ， 
$matches[3] 会 保存 一 个 数值 ， 否 则 ，$matches[3] 根 本 就 不 会 存在 。 


命名 捕获 
如 果 我 们 用 命名 捕获 (6138) 重 写 之 前 的 例子 ， 正 则 表达 式 会 长 
一 些 ， 不 过 代码 更 容易 阅读 : 
/* 从 URL 中 提取 协议 、 主 机 名 和 端口 号 */ 
if (preg match('({*(?P<proto> https? ) 
(?P<host> [*/:]+ ) 
(?: : (?P<port> \d+ ) )? }x', $url, $matches) ) 


$proto = $matches['proto']; 

$host = $matches['host']; 

Sport = S$matches['port'] ? Smatches['port']) : (Sproto= "http" ?80 : 443); 
print "Protocol: $proto\n"; 

print "Host : S$host\n"; 

print "Port : Sport\n"; 


命名 捕获 看 起 来 更 清晰 ， 这 样 我 们 不 需要 把 $matches 的 内 容 复 制 给 
各 个 变量 ， 束 能 直接 使 用 变量 名 ， 而 不 是 $matches， 例 如 这 样 : 


* 从 URL 中 提取 协议 、 主 机 名 和 端口 号 */ 
if (preg match('{*(?P<proto> https? ):// 
(?P<host> [*/:]+ ) 
(2: : (?P<port> \d+ ) )? }x', $url, $UrlInfo)) 


if (! $UrlInfo['port']) 

$UrlInfo['port'] = ($UrlInfo['proto'] == "http" ? 80 : 443); 
echo "Protocol: ", $UrlInfo['proto'], "\n"; 
echo "Host ew. SOCLLI Hest: “VT 


echo "Port a 
} 
如 果 使 用 了 命名 捕获 ， 按 数字 编号 的 捕获 仍然 会 插入 $matches。 例 
如 ， 在 匹配 $url (BA ‘http: /regex.info") 之 后 ， 之 前 例子 中 的 
$UrlInfo 包 含 : 


p $UrlInfo[{‘*port*], "Xn"; 


array 
( 
0 => '‘http://regex.info', 
'proto' => 'http', 
1 => ‘http’, 
"host' => '‘'regex.info', 
2 => '‘regex.info' 
) 


这 样 的 重复 有 点 浪费 ， 但 这 是 获得 命名 捕获 的 便捷 和 清晰 所 必须 
付出 的 代价 。 为 清晰 起 见 ， 我 不 推荐 同时 使 用 命名 和 数字 编号 来 访问 
$matches 的 元 素 ， 当 然 用 $matches[0] 表 示 全 局 匹配 例外 。 

请 注意 ， 数 组 中 不 包括 编号 为 3 和 名 称 为 port' 的 入 口 (entry) ， 
为 这 一 组 捕获 型 括号 没有 参与 到 最 终 匹 配 中 ， 而 且 处 于 最 后 (因此 会 
MAWES 450) 。 

还 要 提 一 点 ， 尽 管 现 在 使 用 例如 ' (? P<2>...) | 之 类 的 数字 命 
名 并 不 会 出 错 ， 但 这 种 做 法 并 不 可 取 。PHP4 和 PHP5 在 处 理 非 正常 情况 
时 会 有 所 区 别 ， 可 能 不 会 按照 个 人 的 意愿 发 展 ， 所 以 最 好 还 是 不 要 使 
用 数字 来 命名 捕获 分 组 。 

更 多 的 匹配 细节 : PREG_OFFSET_CAPTURE 

如 果 设 置 了 preg match 的 第 4 个 参数 flags, m H E E 
PREG_OFFSET_CAPTURE 〈 这 也 是 preg_match 目 前 能 够 接受 的 唯一 标 


志 位 ) ， 则 $matches 的 每 个 元 素 不 再 是 普通 字符 串 ， 而 是 由 两 个 元 素 构 
成 的 子 数组 ， 其 中 第 1 个 元 素 是 匹配 的 文本 ， 第 2 个 元 素 是 这 段 文 本 在 
目标 字符 串 中 的 偏 移 值 《如果 没 有 参与 匹配 ， 则 为 -1) 。 

侦 移 值 从 0 开始 ， 表 示 这 段 文本 相对 目标 字符 串 的 侦 移 值 ， 即 使 设 
置 了 第 5 个 参数 $offset， 偏 移 值 的 计算 也 不 会 变化 。 它 们 通常 按照 字 节 
来 计数 ， 即 使 使 用 了 模式 修饰 符 u 也 是 如 此 (447) 

来 看 个 从 tag 中 提取 HREF 属 性 的 例子 。HTML 的 属性 值 两 边 可 能 是 
双 引 号 、 单 引号 ， 或 者 干脆 没有 3 引号， 这 样 的 值 在 下 面 这 个 正则 表达 
式 的 第 1 组 、 第 2 组 和 第 3 组 捕获 型 括号 中 被 捕获 : 


preg match('/href \s*=\s*(?: "((*")*)"I\" (LV) *)\WL((*\s\'">] +) ) /ix', 
Stag, 
Smatches, 
RPEG OFFSET CAPTURE) ; 
如 果 $tag 包 含 : 


<a name=bloglink href='http: //regex.info/blog/'rel= “nofollow ”>> 
匹配 成 功 之 后 ，$matches 的 内 容 是 : 
array 
( 
/* 全 局 匹配 的 数据 */ 
0 => array ( 0 => “href="http://regex.info/blog/'", 
1 => 17), 
/* 第 1 组 括号 的 匹配 数据 */ 
1 => array ( 0 => "", 
1 => -1 ), 
/* 第 2 组 括号 的 匹配 数据 * / 
2 => array ( 0 => “http://regex.info/blog/", 
1 => 23 ) 
) 


$matches[0][0] 包 含 正则 表达 式 匹 配 的 所 有 文本 ，$matches[0][1] 表 
示 匹 配 文 本 在 目标 字符 串 中 的 俩 移 值 ， 按 字 节 计数 。 

为 了 清晰 起 见 ， 男 一 种 获得 $matches[0][0] 的 办 法 是 : 

substr($tag,$matches[0][1],strlen($matches[0][0])); 

$matches[1][1] 是 -1， 表 示人 第 1 组 捕获 括号 没有 参与 匹配 。 第 3 组 也 
没有 参与 ， 但 是 因为 之 前 提 到 的 理由 (6450) ， 结 尾 未 参与 匹配 的 捕 


获 括号 匹配 的 文本 不 会 包含 在 $matches 中 。 

offset 参 数 

如 果 preg_match 中 设置 了 offset 参数 ， 引 擎 会 从 目标 字符 串 的 对 应 
位 置 开 始 (如 果 offset 是 负数 ， 则 从 字符 串 的 末尾 开始 倒数 ) 。 默 认 情 
况 下 ，offset 是 0 〈 也 就 是 说 ， 从 目标 字符 串 的 开头 开始 ) 。 

请 注意 ，offset 是 按 字 贡 计数 的 ， 即 使 使 用 了 模式 修 吧 符 u 也 是 这 
样 。 如 果 设 置 不 正确 (例如 从 某 个 多 字 节 字符 的 “内 部 ”开始 ) 会 导致 
匹配 失败 。 

即使 offset 不 等 于 0，PHP 也 不 会 把 这 个 位 置 标记 为 人 ^ 字符 串 
的 起 始 位 置 ， 它 只 表示 正则 引擎 开始 党 试 的 位 置 。 不 过 ， 逆 序 环视 倒 
是 可 以 检查 offset 左 边 的 文本 。 


preg_match_all 
使 用 方法 


preg_match_all(pattern,subject,matches [,flags [,offset]]) 

参数 简介 

pattermn 分 隔 符 包围 起 来 的 正则 表达 式 ， 可 能 出 现 修饰 行 (号 
444) 

subject 需 要 检索 的 目标 字符 串 。 

matches 用 来 保存 匹配 数据 的 变量 (必须 出 现 ) 。 

flags 非 强制 出 现 ， 标 志 位 设 定 整个 函数 的 功能 : 

PREG_OFFSET_CAPTURE(@ 456) 

和 /或 任意 : 

PREG_PATTERN_ORDER( 455) PREG_SET_ORDER(& 456) 

offset 非 强制 出 现 ， 从 0 开始 ， 表 示 目 标 子 符 串 中 匹配 笑 试 开始 的 位 
置 (与 preg_match 和 的 offset 参 数 相 等 号 453) 

返回 值 

preg_match_all 返 回 匹配 的 次 数 。 


不 包含 任何 内 容 的 匹配 ， 还 是 无 法 匹配 


preg match 返回 的 Smatches 中 ， 空 字符 事 表 示 对 应 的 持 号 没有 参与 匹配 (当然 ， 数 
组 末 屁 的 空 字符 串 会 被 息 略 ), 因为 匹配 结果 也 可 能 是 空 字 符 囊 ,我 布 望 没有 泰 与 匹配 
的 括号 捕获 的 文本 是 NULL, 

所 以 ,我 自己 编写 了 一 个 preg match( 我 称 其 为 red match) ,首先 使 用 BREG OFFSET 
CAPTURE 标志 位 来 获得 所 有 括号 内 的 自 表 达 式 匹配 结果 的 详细 信息 ， 然 后 根据 这 些 信 
息 在 Smatches 中 将 对 应 的 值 设 为 NULL， 


function reg match ($regex, $subject, é$matches, Soffset = 0) 
{ 


$result = preg match ($regex, $subject, $matches, 
PREG OFFSET CAPTURE, $offset); 


if ($result) { 
$f = create function('&$X", '$X = $X[1) < 0 ? NULL: $X[0]; '); 
array walk($matches, $f); 
| 
return $result; 
} 


reg match 的 结果 等 于 在 不 指定 任何 标志 位 的 情况 下 调用 preg match, BH AF, 如 
果 某 组 括号 没有 参与 匹配 , & preg match 中 对 应 的 元 素 为 空 字 符 囊 ,而 在 reg match 
P ERT NULL, 


讲解 

preg_match_all 类 似 于 preg_match， 只 是 在 找到 第 一 个 匹配 之 后 ， 
它 会 继续 搜索 字符 串 ， 找 到 其 他 的 匹配 。 每 个 匹配 都 会 创建 一 个 包含 
匹配 数据 的 数组 ， 所 以 最 后 matches 变 量 就 是 一 个 二 维 数 组 ， 其 中 的 每 
个 子 数组 对 应 一 次 匹配 。 

这 里 有 个 简单 的 例子 : 

if (preg match_all('/<title>/i', $html, $all matches) > 1) 

print "whoa, document has more than one <title>!\n"; 

preg_match_all 要 求 必须 出 现 第 3 个 参数 (也 就 是 用 来 收集 所 有 成 功 
的 匹配 信息 的 变量 )  。 所 以 ， 这 个 例子 中 虽然 没有 用 到 $all_matches， 


但 仍然 必须 设置 这 个 变量 。 

收集 匹配 数据 

preg_match 和 preg_match_all 的 男 一 个 主要 区 别 是 第 3 个 参数 中 的 
数据 。preg_match 进 行 至 多 一 次 匹配 ， 所 以 它 把 匹配 的 数据 存储 在 
matches 变 量 中 。 与 此 不 同 的 是 ，preg_match_all 能 匹配 许多 次 ， 所 以 它 
的 第 3 个 参数 保存 了 多 个 单 次 匹配 的 matches。 为 了 说 明 这 种 区 别 ， 我 
使 用 $all_matches 作 为 preg_match_all 的 变量 名 ， 而 不 是 $preg_match 中 各 
用 的 $matches。 

preg_match_all 可 以 以 两 种 方式 在 $all_matches 中 存放 数据 ， 根 据 下 
面 两 个 互 斥 的 第 4 个 参数 flag : PREG PATTERN_ORDER 或 是 
PREG_SET_ORDER 来 决定 。 

默认 的 排列 方式 是 PREG_PATTERN_ORDER 下 面 有 个 例子 (我 称 
其 为 “ 按 分 组 编号 的 (collated) ”一 一 稍 后 将 介绍 ) 。 如 果 没 有 设置 标 
志 位 ， 这 就 是 默认 的 配 列 方式 : 


Ssubject = " 


Jack A. Smith 


Mary B. Miller"; 


* AiR HE flags 就 采用 PREG PATTERN ORDER */ 
preg match all ("/*(\wt) (\w\.) (\wt)$/m', $subject, $all matches); 


$all_matches 的 结果 为 : 


array 
/* $all_matches[0] 对 应 所 有 的 全 局 匹配 */ 
0 => array ( 0 => "Jack A. Smith", /* 第 1 次 匹配 的 全 部 文本 */ 
1 => "Mary B. Miller" /* 第 2 次 匹配 的 全 部 文本 */ ), 


/* $all matches[1] 对 应 第 1 组 捕获 型 括号 匹配 的 信息 */ 
1 => array ( 0 => "Jack", /* 第 1 次 匹配 中 的 第 工 组 捕获 型 括号 */ 
1 => "Mary"  /* 第 2 次 匹配 的 第 1 组 捕获 型 括号 t/ ), 


/* $all matches[2] 对 应 第 2 组 捕获 型 括号 匹配 的 信息 */ 
2 => array ( 0 => "A.", /*PIRERPHS 2 组 捕获 型 持 号 eA 
1 => "B." /+ 第 2 次 匹配 中 的 第 2 组 捕获 型 括号 “fi Yy 


/* Sall_matches[3] 对 应 第 3 组 捕获 型 括号 匹配 的 信息 */ 
3 => array ( 0 => "Smith", /* 第 1 次 匹配 中 的 第 3 组 捕获 型 括号 * | 
1 => "Miller" /* 第 2 次 匹配 中 的 第 3 组 捕获 型 括号 t/ ) 


一 共 匹 配 了 两 次 ， 每 次 都 包含 一 个 “全 局 匹配 ?字符 串 ， 以 及 3 个 
捕获 型 括号 对 应 的 子 字符 串 。 我 称 其 为 “ 按 分 组 编号 的 (collated) ”, 
因为 所 有 的 全 局 匹配 都 存放 在 一 个 数组 里 (在 $all_matches[0]， 每 次 匹 
配 中 ， 第 1 组 括号 配 的 文本 存放 在 男 一 个 数组 $all_matches[1] 中 ， 依 次 
类 推 。 

默认 情况 下 ，$all_matches 是 按 分 组 编号 的 ， 但 我 们 可 设置 
PREG_SET_ORDER 来 改变 它 。PREG_SET_ORDER 排列 方式 如 果 设 
定 了 PREG_SET_ORDER 标志 位 ， 就 会 采用 “ 堆 秦 (stacked) ”的 排列 
方式 。 它 会 把 第 1 次 匹配 的 所 有 数据 保存 在 $all_matches[0] 中 ， 第 2 次 
匹配 的 所 有 数据 保存 在 $all_matches[1] 中 ， 依 次 类 推 。 这 就 是 我 们 检索 
字符 串 的 顺序 ， 把 每 次 成 功 匹 配 的 $matches 放 进 $all_matches 数 组 中 。 

下 面 是 之 前 那个 例子 的 PREG_SET_ORDER 的 版 本 : 

$subject = " 
Jack A. Smith 
Mary B. Miller"; 


preg match all('/*(\w+) (\w\.) (\w+)$/m', $subject, $all matches, PREG SET ORDER); 


LEAR TE: 


array 
( 
/* $all matches[0] ørt preg match 的 Smatches */ 
0 => array (0 => "Jack A. Smith", /* 第 1 次 整体 匹配 */ 


1 => "Jack", /* 第 1 次 整体 匹配 的 第 工 个 捕获 型 插 号 */ 
2 => "AL", /* 第 1 次 整体 匹配 的 第 2 个 横 获 型 括号 */ 
3 => "Smith" /* 第 1 次 整体 匹配 的 第 3 个 捕获 型 括号 */ ) ， 


/* $all matches[1] 等 价 于 preg match 的 Smatches */ 
1 => array (0 => "Mary B. Miller", /* 第 1 次 整体 匹配 */ 


1 => "Mary", /* 第 2 次 整体 匹配 的 第 1 个 横 获 型 括号 */ 
2 => "B,", /* 第 2 次 整体 匹配 的 第 2 个 捕获 型 括号 x/ 
3 => "Miller" /+ 第 2 次 整体 匹配 的 第 3 个 捕获 型 括号 kr/ ) ， 


两 种 排列 方式 的 总 结 如 下 : 


标志 位 


PREG PATTERN ORDER 
PREG SET ORDER 


preg_match_all#JPREG_OFFSET_CAPTUREM afl 

mL Z preg match 一 样 ， 也 可 以 在 preg _match_all 中 使 用 
PREG_OFFSET_CAPTURE ， 让 $all_matches 的 每 个 末端 元 素 (leaf 
element) 成 为 一 个 两 个 元 素 的 数组 (匹配 的 文本 ， 以 及 按 字 节 计算 的 
偏 移 值 ) 。 也 就 是 说 ，$all_matches 成 为 一 个 数组 的 数组 的 数组 ， 这 可 
真 饶 舌 。 如 果 你 希望 同时 使 用 PREG OFFSET_ CAPTURE 和 


PREG _SET_ORDER， 请 使 用 逻辑 运算 符 “or” 来 连接 : 


preg_match_all ($pattern, $subject, $all_matches, 
PREG OFFSET CAPTURE | PREG SET ORDER) ; 


preg_match_all 与 命名 分 组 
如 果 使 用 了 命名 分 组 ，$all_matches 将 会 多 出 命名 元 素 ( 同 
preg_match 一 样 全 451) 。 这 上 段 程序 : 


将 各 次 匹配 中 同样 编号 的 分 组 编 在 一 起 
$all matches[$paren num] [$match num] 
将 每 次 匹配 的 数据 集中 保存 


$all matches[$match num] [$paren_num] 


按 分 组 编号 


=) 


$subject = " 

Jack A. Smith 

Mary B. Miller"; 

/* 不 设置 flags 就 采用 PREG PATTERN ORDER */ 

preg_match_all('/*(?P<Given>\w+) (?P<Middle>\w\.) (?P<Family>\wt)$/m', 
$subject, $all_matches); 


$all_ matches 的 结果 是 : 


array 
( 0 => array ( 0 => "Jack A. Smith", 1 => "Mary B. Miller" ), 
"Given" => array ( 0 => "Jack", 1 => "Mary" § ), 
1 => array ( 0 => "Jack", 1 => "Mary" ), 
"Middle" => array ( 0 => "A.", 1 => "B," P 
2 => array ( 0 => "A.", 1 => "B," F 
"Family" => array ( 0 => "Smith", 1 => "Miller"), 
3 => array ( 0 => "Smith", 1 => "Miller" ) 


如 果 使 用 PREG_SET_ORDER: 


$subject = " 

Jack A. Smith 

Mary B. Miller"; 

preg match all('/*(?P<Given>\wt) (?P<Middle>\w\.) (?P<Family>\wt)$/m', 
$subject, $all_matches, PREG_SET ORDER) ; 


array 
( 


0 => array (0 => "Jack A. Smith", 
Given => "Jack", 
1 => "Jack", 
Middle => "A.", 
2 => "A.", 
Family => "Smith", 
a => "Smith" ), 
1 => array (0 => "Mary B. Miller", 
Given => "Mary", 
1 => "Mary", 
Middle => "B.", 
2 => "B.", 
Family => "Miller", 
3 => "Miller" ) 


) 

我 个 人 认为 ， 在 使 用 了 命名 分 组 之 后 ， 就 应 该 去 掉 数字 编号 ， 因 
为 这 样 程序 更 清晰 ， 效 率 更 高 ， 不 过 ， 如 果 它 们 被 保留 了 ， 你 可 以 当 
它们 不 存在 。 


preg_replace 
使 用 方法 


preg_replace(pattern,replacement,subject [,limit [,count]]) 

参数 简介 

pattern 分 隔 符 包围 起 来 的 正则 表达 式 ， 可 能 出 现 修 岳 符 。pattern 也 
可 能 是 一 个 pattern-argument 字 符 串 的 数组 。 

replacement replacement 字符 串 ， 如 果 patteamn 是 一 个 数组 ， 则 
replacement 是 包含 多 个 字符 串 的 数组 。 如 果 使 用 了 模式 修饰 符 e， 则 字 
符 串 (或 者 是 数组 中 的 字符 串 ) 会 被 当 作 PHP 代 码 (459) 。 

subject 需 要 搜索 的 目标 字符 串 。 也 可 能 是 字符 串 数 组 ( 按 顺序 依次 
处 理 ) 。 

limit 非 强制 出 现 ， 是 一 个 整数 ， 表 示 替 换 发 生 的 上 限 (460) 。 


count 非 强制 出 现 ， 用 来 保存 实际 进行 的 替换 次 数 (只 有 PHP5 提 
Hk, 460) 。 

返回 值 

如 果 subject 是 单个 字符 串 ， 则 返回 值 也 是 一 个 字符 串 (subject 的 
副本 ， 可 能 经 过 修改 ) 

如 果 subject 是 字符 串 数 组 ， 返 回 值 也 是 数组 (包含 subject 的 副本 ， 
可 能 经 过 修改 ) 

讲解 

PHP 提供 了 许多 对 文本 进行 查找 -替换 的 办 法 。 如 果 和 查找 部 分 可 以 
用 普通 的 字符 串 描 述 ，str_replace 或 者 str_ireplace 就 更 合适 ， 但 是 如 果 
查找 比较 复杂 ， 束 应 该 使 用 preg_replace ° 

来 看 一 个 简单 的 例子 : 在 Web 开 发 中 经 常会 遇 到 这 样 的 任务 ， 把 信 
用 卡号 或 电话 号 人 码 输入 一 张 表 单 。 你 是 否 经 常 看 到 “不 要 输入 空格 和 连 
字符 ”的 提示 ? 要 求 用 户 按 规则 输入 数据 ， 还 是 由 程序 员 做 一 点 小 小 的 
改进 ， 让 用 户 可 以 照 自 己 的 习惯 输入 数据 ?” 哪 种 办 法 更 好 〈 注 3) ? 毕 
竟 ， 这 里 我 们 的 要 求 就 是 “清理 "这样 的 输入 数据 : 

$card number = preg replace('/\D+/', ' ', $card number); 
/* Scard number 只 包含 数字 ， 或 者 为 空 */ 

其 中 用 preg replace 来 去 挥 非 数字 字符 。 更 人 确切 的 说 ， 它 用 
preg_replace 来 生成 $card_number 的 副本 ， 将 其 中 的 非 数 字 字 人 符 和 替换 为 
Z (ZFFE) ， 把 这 个 经 过 修改 的 副本 赋值 给 $card_number 。 

单字 符 串 ， 单 替换 规则 的 preg_replace 

前 面 三 个 元 素 (pattem, replacement 和 subject) 都 是 既 可 以 为 字 
符 串 ， 也 可 以 为 字符 串 数 组 。 通 常 这 三 者 都 是 普通 的 字符 串 ， 
preg_replace 首先 生成 subject 的 副本 ， 在 其 中 找到 pattern 的 第 1 次 匹 
配 ， 将 匹配 的 文本 替换 为 replacement， 然 后 重复 这 一 过 程 ， 直 到 搜索 到 
字符 串 的 末尾 。 

在 replacement 字 符 串 中 ，‘$0’ 表 示 匹 配 的 所 有 文本 ，‘$1’ 表 示 第 1 组 
捕获 型 括号 匹配 的 文本 ，‘$2’ 表 示 第 2 组 ， 依 次 类 推 。 请 注意 ， 美 元 符 
加 数字 的 字符 序列 并 不 会 引用 变量 ， 虽 然 它 们 在 其 他 某 些 语言 中 有 这 
种 功能 ， 但 是 preg_replace 能 识别 简单 的 序列 ， 并 进行 特殊 处 理 。 你 可 


以 使 用 一 对 花 括号 来 包围 数字 ， 比 如 ‘${0}? 和 ‘${1}， 这 样 束 不 会 引起 
混 消 。 

这 个 简单 的 例子 把 HTML 的 bold tag 转 换 为 全 部 大 写 : 

$html=preg_replace(‘\blA-Z]{2, }\b/',"<b>$0</b>',$html); 

如 果 使 用 了 模式 修饰 符 e CER BE h I Æ preg replace H) , 
replacement 字 符 串 会 作为 PHP 人 代码， 每 次 匹配 时 执行 ， 结 果 作 为 
replacement 字 符 串 。 下 面 这 个 扩展 的 例子 把 bold tag 里 的 单词 变 为 小 
写 ; 


$html = preg replace('/\b[A-Z]{2,}\b/e', 
"strtolower ("<b>S0</b>")', 
Shtm1) ; 
如 果 正 则 表达 式 匹 配 的 单词 是 HEY'，replacement 字 符 串 中 的 $0 会 
被 替换 为 这 个 值 。 结 果 ，replacement 字 符 串 束 成 了 'strtolower (" <b> 
HEY</b>") '， 执 行 这 段 PHP 代 码 ， 结 果 就 是 .<<b>hey< 由 >:。 
如 果 使 用 模式 修饰 符 e，replacement 字符 串 中 的 捕获 引用 会 按照 特 
殊 的 规定 来 插值 : 插值 中 的 引号 ( 单 引 号 或 双 引 号 ) 会 转 义 。 如 果 不 
这 样 处 理 ， 插 入 的 数值 中 的 引号 会 导致 PHP 代码 出 错 。 
如 果 使 用 模式 修饰 符 e， 在 replacement 字 符 串 中 引用 外 部 变量 ， 最 
好 是 在 replacement 字 符 串 文本 中 使 用 单 引 号 ， 这 样 变量 就 不 会 进行 错误 
的 插值 。 
这 个 例子 类 似 于 PHP 内 建 的 htmlspecialchars () ERR: 
Sreplacement = array ('&' => '&amp; ', 
oer ma Uert Tj 
i>i => Negt; t; 
"mY => '&quot; '); 


$new_subject=preg replace ('[&< " >J]/eS', '$replacement[ " $0 
"J, $subject) ; 需要 注意 ， 这 个 例子 中 的 replacement 使 用 了 单 引 号 字 
符 串 来 避免 $replacement 变 量 插值 ， 直 到 将 其 作为 PHP 代 码 执行 。 如 果 
使 用 双 引 号 字符 串 ， 在 传递 给 preg_replace 之 前 ， 插 值 就 会 进行 。 

可 以 用 模式 修饰 符 S 用 来 提高 效率 (478) 

preg_replace 的 第 4 个 参数 用 来 设 定 蔡 换 操作 次 数 的 上 限 (单位 是 
单个 字符 串 -单个 正则 表达 式 ， 参 见 下 一 节 ) 。 上 默认 值 是 -1， 表 示 “ 没 有 


限制 ”。 

如 果 设 置 了 第 5 个 参数 count (PHP4 没 有 提供 ) ， 它 会 用 来 保存 
preg_replace 的 实际 符 换 的 次 数 。 如 有 果 你 硕 望 知道 是 否 发 生 了 符 换 ， 可 
以 比较 原来 的 目标 字符 串 和 结果 ， 不 过 检查 count 参 数 效 率 更 高 。 

多 字符 串 ， 多 替换 规则 

前 一 节 已 经 提 到 ， 目 标 字 符 串 通常 是 普通 字符 串 ， 至 少 我 们 目前 
看 到 的 所 有 例子 都 是 如 此 。 不 过 ，subject 也 可 以 是 一 个 字符 串 数 组 ， 
这 样 搜 索 和 替换 是 对 每 个 字符 串 依 次 进行 的 。 返 回 值 也 是 由 每 个 字符 
串 经 过 搜索 和 替换 之 后 的 数组 。 

无 论 使 用 的 是 字符 串 还 是 字符 串 数组 ，pattern 和 replacement 参 数 也 
可 以 是 字符 串 数组 ， 下 面 是 各 种 组 合 及 其 意义 : 


Pattern 行为 

字符 囊 应 用 pattem， 将 每 次 匹配 的 文本 替换 为 replacement 

数组 轮流 应 用 patterm， 将 每 次 匹配 的 文本 替换 为 replacement 

Pit 轮流 应 用 pattern, 将 每 次 匹配 的 文本 替换 为 对 应 的 replacement 
数组 数组 不 容许 


如 果 subject 参 数 是 数组 ， 则 依次 处 理 数 组 中 的 每 个 元 素 ， 返 回 值 也 
是 字符 串 数 组 。 
请 注意 limit 参 数 是 以 单个 pattern 和 单个 subject 为 单位 的 。 它 不 是 对 
所 有 的 pattern 和 subject 生 将 。 返 回 的 $count 则 是 所 有 pattern 和 subject 字 
符 串 所 进行 操作 次 数 的 总 合 。 
这 里 有 一 个 preg_replace 的 例子 ， 其 中 pattem 和 replacement 都 是 数 
组 。 其 结果 类 似 于 PHP 内 建 的 htmlspecialchars () 范 数 ， 它 保证 处 理 过 
的 文本 符合 HTML 规 范 : 
$cooked = preg replace ( 
/* RATA... ti arrayv("/G/", "ff", Toft TEP" J, 
/+ RRROTA... */ array('&amp;', '&lt;', '&gt;', '&quot;'), 
/* ., RAR AFAR */ $text 
ja 


如 条 输入 的 文本 是 : 


AT&T--> " baby Bells " 

$cooked 的 值 葡 是 : 

AT&T--&gt;&quot;baby Bells&quot; 

当然 也 可 以 预先 准备 好 这 些 数组 ， 下 面 的 程序 运行 结果 相同 : 
$patterns array Eee MSA ARE iy TR a 


Sreplacements = array('&amp;', '&lt;', '&gt;', '&quot;'); 


$cooked = preg_replace ($patterns, replacements, $text); 


preg_replace 能 够 接收 数组 作为 参数 是 很 方便 的 〈 这 样 程序 员 就 不 
需要 使 用 循环 在 各 个 pattern 和 subject 中 进行 迭代 ) ， 但 是 它 的 功能 并 没 
有 增强 。 比 如 ， 各 个 pattern 并 不 是 “并 行 ? 处 理 的 。 但 是 ， 相 比 目 己 写 
PHP 循 环 代码 ， 内 建 的 处 理 效 率 更 高 ， 而 且 更 容易 阅读 。 为 了 说 清楚 ， 
请 参考 这 个 例子 ， 其 中 所 有 的 参数 都 生 数 组 : 


$result_array=preg_replace($regex_array,$replace_array,$subject_array 


); 
它 等 价 于 : 


Sresult_array = array(); 
foreach ($subject array as $subject) 
{ 
reset ($regex array); // 准备 遍历 两 个 数组 
reset (Sreplace array); // 把 数组 指针 恢复 到 开头 位 置 


while (list (,$regex) = each($regex array) ) 

{ 
list (, replacement) = each($replace array); 
// regex 和 replacemnet 已 经 准备 就 绪 ， 应 用 到 subject ... 
Ssubject = preg replace($regex, $replacement, $subject); 


} 
// 已 经 处 理 完 所 有 的 regex, Æ subject 处 理 完毕 ... 
$result array[] = $subject; // .,. 附 加 到 结果 数组 中 


数组 参数 的 排序 问题 如 果 pattern 和 replacement 都 是 字符 串 ， 它 们 
会 根据 数组 的 内 部 顺序 配对 ， 这 种 顺序 通常 就 是 它们 添加 到 数组 中 的 
先后 顺序 (pattern 数组 中 添加 的 第 1 个 元 素 对 应 replacement 数组 中 的 


第 1 个 元 素 ， 依 次 类 推 ) 。 也 就 是 说 ， 对 于 array O 创建 的 “文本 数 
组 ”来 说 ， 排 序 没有 问题 ， 例 如 : 


Ssubject = "this has 7 words and 31 letters"; 


$result = preg replace(array('/[a-z]+/', '/\d+/"), 
array ('word<$0>', 'num<$0>'), 
$subject); 


print "result: $result\n"; 

Tla-z]+ | 对 应 ‘word<$0>’， 下 面 的 \d+ | 对 应 "num<$0>"， 结 
RWE 

result: word<this> word<has> num <7> word< words> word 
<and> num <31> word< letters > 相反， 如 采 pattern 或 replacement 2% 
组 是 多 次 填充 的 ， 数 组 的 内 部 顺序 可 能 就 不 同 于 keys 的 顺序 (也 就 是 
说 ， 由 keys 表示 的 数字 顺序 ) 。 所 以 前 一 页 的 程序 使 用 数组 模拟 
preg_replacement 的 程序 要 使 用 each 来 按照 数组 的 内 部 顺序 过 历 整 个 数 
组 ， 而 不 关心 它们 的 keys 如 何 。 

如 果 pattern 或 replacement 数组 的 内 部 顺序 不 同 于 你 希望 匹配 的 顺 
序 ， 可 以 使 用 ksort O 画 数 来 确保 每 个 数组 的 实际 顺序 和 外 表 顺 序 是 
相同 的 。 

如 果 pattern 和 replacement 都 是 数组 ， 而 pattern 中 元 素 的 数目 多 于 
replacement 中 的 元 闵 ， 则 会 在 replacement 数 组 中 产生 对 应 的 空 字符 串 ， 
来 进行 配对 。 

pattern 数组 中 的 元 素 顺 序 不 同 ， 结 果 可 能 大 不 相同 ， 因 为 它们 是 
按照 数组 中 的 顺序 来 处 理 的 。 如 果 把 例子 中 的 patterm 数 组 的 顺序 颠倒 过 
来 〈 把 replacement 数 组 中 的 顺序 也 颠倒 过 来 ) ， 结 果 是 什么 呢 ? 也 就 是 
说 ， 下 面 代 码 的 结 采 是 什么 呢 ? 

Ssubject = "this has 7 words and 31 letters"; 
$result = preg replace(array('/\dt+/', '/[a-z]+/"'), 
array('num<\0>', '‘word<\0>'), 


$subject); 
print "result: $result\n"; 


中 请 翻 到 下 页 查看 答案 。 


preg_replace_callback 
使 用 方法 


preg_replace_callback (pattern, callback, subject [ limit [ ， 
count]]) 参数 简介 

pattern 分 隔 符 包围 起 来 的 正则 表达 式 ， 可 能 出 现 修饰 符 (号 
444) 。 也 可 能 是 字符 串 数组 。 

callback PHP 回 调 函 数 ， 每 次 匹配 成 功 ， 就 执行 它 ， 生 成 
replacement FÍF R ° 
subject fa 2272 WY A pn AFB o Wa Ree T PRR UKRA 


理 ) 

limit 非 强制 出 现 ， 设 定 替换 操作 的 上 限 (460) 

count 非 强制 出 现 ， 用 来 保存 实际 发 生 替 换 的 次 数 (只 在 PHP 5.1.0 
中 提供 ) 。 

返回 值 

如 有 果 subject 是 字符 串 ， 返 回 值 承 是 字符 串 (其 实 是 subject 的 一 个 副 
本 ， 可 能 经 过 了 修改 ) 。 如 果 subject 是 字符 串 数 组 ， 返 回 值 就 是 数组 

(每 个 元 素 都 是 subject 中 对 应 元 素 的 副本 ， 可 能 发 生 了 修改 ) 

讲解 

preg_replace_callback 类 似 于 preg_replace， 只 是 replacement 参数 变 
成 了 PHP 回调 函数 ， 而 不 是 字符 串 或 是 字符 串 数 组 。 它 有 点 像 使 用 模 
式 修饰 符 e 的 preg_replace (459) ， 但 是 效率 更 高 (WR replacement 
部 分 的 代码 很 复杂 ， 这 种 办 法 更 易于 阅读 ) 

请 参考 PHP 文 档 获 得 更 多 关于 回调 的 知识 ， 不 过 简单 地 说 ，PHP 回 
调 引 用 〈 以 许多 种 方式 中 的 一 种 ) 一 个 预先 规定 的 函数 ， 以 预先 规定 
的 参数 ， 返 回 预先 规定 的 值 。 在 preg_replace_callback 中 ， 每 次 成 功 匹 
配 之 后 都 会 进行 这 种 调用 ， 参 数 是 $matches 数组 。 范 数 的 返回 值 用 作 
preg_replace_callback 作 为 replacement ° 

回调 可 以 以 三 种 方式 引用 函数 。 一 种 是 直接 以 字符 串 形式 给 出 孙 
数 名 ; 另 一 种 是 用 PHP 内 建 的 create_function 生 成 一 个 匿名 函数 。 稍 后 
我 们 会 看 到 使 用 这 两 种 方法 的 例子 。 第 三 种 方式 本 书 没 有 提 及 ， 它 采 


用 面向 对 象 的 方式 ， 由 一 个 包含 两 个 元 素 (分 别 是 类 名 和 方法 名 ) 的 
数组 构成 。 


测验 答案 


0 462 页 问题 的 答案 
462 页 问题 中 的 程序 运行 结果 如 下 (ATEA, t Tit): 


result: word<this> word<has> word<num><7> word<words> 
word<and> word<num><31> word<letters> 


如 果 这 两 处 粗 体内 容 出 乎 你 的 意料 ， 原 因 在 于 ， 使 用 多 个 正则 表达 式 的 preg match 
(使 用 pattern 数组 ) 并 不 会 “并 行 ”处 理 这 些 pattem， 而 是 依次 进行 ， 

在 这 个 例子 中 ， 第 1 组 pattern/replacement 会 在 Subject 中 添加 两 个 num<…> ， 这 两 个 
‘num’ 会 被 数组 中 的 下 一 个 pattern BR. AGA ‘num’ HR ‘word<num>’, K 
终 得 到 这 个 意料 之 外 的 结果 。 

这 个 例子 告诉 我 们 ， 如 果 preg replace 使 用 了 多 个 pattemi， 一 定 要 注意 安排 它们 的 
顺序 。 


下 面 这 个 例子 用 preg_replace_callback 和 辅助 画 数 重 写 了 第 460 页 的 
程序 。callback 参 数 是 一 个 字符 串 ， 包 含 辅助 函数 的 名 字 : 


Sreplacement = array ( '&' => '&amp;', 
"<' => RIU a 
ISI => '&gt; i 
thit ' 


上 
/ 


t 匹配 成 功 之 后 ，Smatches [0] 中 保存 的 是 需要 转换 为 HTML 的 字符 事 ， 以 此 为 接受 参数 ,返回 
+ HTML 字符 事 。 因 为 此 函数 只 在 确保 安全 的 情况 下 调用 ， 此 处 不 考虑 意外 情况 


x 上 
/ 


function text2html callback ($matches) 


{ 
global $replacement; 
return $Sreplacement [$matches[0]]; 
} 
$new subject = preg replace callback('/[&<">]/S', /* pattern */ 


"text2html callback", /* callback * 
$subject); 


如 果 $subject 的 值 是 : 

" AT&T " sounds like " ATNT " 
M$new_subjecth (Hii: 
&quot;AT & T&quot;sounds like&quot;ATNT &quot; 


本 例 中 的 text2html callback 7 i AY PHP & at, H fE 
preg_replace_callback FAY EV Hr, EM BELSEES$matches3v24 ( 当 
然 ， 这 个 变量 可 以 随意 命名 ， 不 过 我 选择 遵循 之 前 使 用 $matches 的 惯 
例 ) 。 

为 完整 起 见 ， 下 面 我 给 出 使 用 匿名 函数 的 办 法 (使 用 PHP 内 建 的 
create_function 函 数 ) 。 这 上 段 程 序 产 生 的 $replacement 变 量 与 上 面 一 样 。 
函数 体 也 相同 ， 只 是 此 时 函数 没有 名 字 ， 只 能 在 preg_replace_callback 
中 使 用 : 


Snew_subject = preg replace callback('/[&<">]/S'", 
create function('Smatches', 
"global Sreplacement; 
return Sreplacement [$matches{[0]];'), 


$subject); 


使 用 callback ， 还 是 模式 修饰 符 e 


如 果 处 理 不 复杂 ， 使 用 模式 修饰 符 的 程序 比 preg_replace_callback 
更 容易 看 届 。 但 是 ， 如 果 效 率 很 重要 ， 那 么 请 记 住 ， 如 果 使 用 模式 修 
饰 符 e， 每 次 匹配 成 功 之 后 都 需要 检查 作为 PHP 代 码 的 replacement 参 
数 。 相 比 之 下 ，preg_replace_callback 的 效率 就 要 高 许多 (如 果 使 用 回 
调 ，PHP 代 码 只 需要 审查 1 次 ) 。 


preg_split 
使 用 方法 
preg_split(pattern,subject [,limit,[flags]]) 
参数 简介 
pattern 分 隔 符 包围 起 来 的 正则 表达 式 ， 可 能 还 有 修饰 符 (号 
444) 。 


subject 需要 分 割 的 目标 字符 串 。 
limit 非 强制 出 现 ， 是 一 个 整数 ， 表 示 切 分 之 后 元 素 的 上 限 。 
flags 非 强制 出 现 ， 此 标志 位 影响 整个 切割 行为 ， 以 下 三 项 可 以 随 
意 组 合 : 
PREG SPLIT NO_EMPTY 
PREG SPLIT DELIM CAPTURE 
PREG SPLIT OFFSET CAPTURE 
它们 的 讲解 从 第 468 页 开始 。 多 个 标志 位 使 用 二 元 运算 符 “ 或 ”来 连 
接 (与 第 456 页 一 样 ) 。 
返回 值 
返回 一 个 字符 串 数 组 。 
讲解 
preg_split 会 把 字符 串 的 副本 切 分 为 多 个 片段 ， 以 数组 的 形式 返 
回 。 非 强制 出 现 参 数 limit 设 定 返 回 数组 中 元 素数 目的 上 限 (如 果 需 
要 ， 最 后 的 元 素 包 括 “ 其 他 所 有 字符 ”) 。 可 以 设 定 不 同 的 标志 位 来 调 
整 返回 的 方式 和 内 容 。 
从 某 种 意义 上 来 说 ，preg_split 做 的 是 与 preg_match_all 相 反 的 事 
情 : 它 找 出 目标 字符 串 中 不 能 由 正则 表达 式 匹 配 的 部 分 。 或 者 更 传统 


地 说 ，preg_split 返 回 的 是 ， 将 目标 字符 串 中 正则 表达 式 匹配 的 部 分 删 
去 之 后 的 部 分 。preg_split 大 概 相 当 于 PHP FAENA explode KRE, 
不 过 使 用 的 是 正则 表达 式 ， 而 且 功 能 更 强大 。 

来 看 个 简单 的 例子 ， 如 果菜 家 金融 网 站 需要 接收 用 空格 分 隔 的 股 
票 行情 。 可 以 使 用 explode 拆 分 这 些 行 情 数据 : 

$tickers=explode(",$input); 

不 过 ， 如 果 输 入 数据 时 不 小 心 输 入 了 不 只 一 个 空格 ， 这 个 程序 就 
不 能 处 理 了 。 更 好 的 办 法 是 使 用 preg_split， 用 正则 表达 式 \s+ | KH 


$ 


$tickers=preg_split('^s+/,$input); 
BRT HR SHAHEED ANZA, A ta a 
(或 者 是 逗号 加 空格 ) Korba, Hi YHOO, MSFT, GOOG’ ° ix #6 
情况 也 很 容易 处 理 : 
$tickers=preg_split(/[\s, ]+/", $input); 
和 针对 上 面 的 数据 ，$tickers 得 到 的 是 包 合 3 个 元 素 的 数 
组 : YHOO’ ` ‘MSFT’ FI GOOG’ ° 
如 有 果 输 入 的 数据 是 逗号 分 隔 的 〈 例 如 给 照片 标记 tag 时 使 用 
的 “Web 2.0, ”) ， 就 需要 用 fs 类 \s% 来 处 理 : 
$tags=preg_split(‘\s*,\s*/',Sinput); 
比较 sx, sxi ATs, +, 很 能 说 明 问 题 。 前 者 用 逗号 来 切 分 
GES HoH) ， 但 也 会 删 去 逗号 两 边 的 空白 字符 。 如 果 输 
入 ‘123，，，456’， 则 能 够 进行 3 次 匹配 (每 次 匹配 一 个 逗号 ) ， 返 回 4 
个 元 素 : “123'， 两 个 空 字 符 串 ， 最 后 是 "456”。 
AFH, Ns, +, 会 使 用 任何 去 号 、 连 续 的 去 号 、 空 白字 符 ， 


或 者 是 空 日 字符 和 过 号 的 结合 来 切 分 。 在 4123，，，456’ 中 ， 它 一 次 整 
能 匹配 3 个 有 逗号， 返回 两 个 元 素 ，‘123? 和 ‘456”。 
limit 参 数 


limit 参数 用 来 设 定 切 分 之 后 数组 长 度 的 上 限 。 如 果 搜 索 尚 未 进行 
到 字符 串 结 尾 时 ， 切 分 的 片段 的 数目 已 经 达到 limit， 则 之 后 的 内 容 会 
全 部 保存 到 最 后 的 元 素 当 中 。 


来 看 个 例子 ， 我 们 需要 手工 解析 服务 器 返回 的 HTTP response ° 7% 
HERE, header 和 body 的 分 隔 是 四 字符 序列 Arnvn':  ， 不 笠 的 是 ， 有 的 
RE aE HAEE Ann 。 圣 好， 我 们 有 preg_split， 很 容易 处 理 这 两 种 
情况 。 假 设 整 个 response 保 存在 $response 中 : 

$parts=preg_split(Ar?n\r?\n/x',$response,2); 

header 保 存在 $parts[0] 中 ， 而 body 保 存在 $parts[1] 中 (使 用 模式 修饰 
符 S 是 为 了 提高 效率 F478) 。 

第 3 个 参数 ， 即 limit 的 值 等 于 2， 表 示 subject 字 符 串 最 多 只 能 切 分 成 
两 个 部 分 。 如 果 找 到 了 一 个 匹配 ， 匹 配 之 前 的 部 分 (也 就 是 header) 
会 成 为 返回 值 的 第 一 个 元 素 。 因 为 “字符 串 的 其 他 部 分 ”是 第 2 个 元 素 ， 
这 样 就 到 达 了 上 限 ， 它 (我们 知道 是 body) 会 原封 不 动 地 作为 返回 值 
中 的 第 二 个 元 素 。 

如 果 没 有 limit 〈 或 者 limit 等 于 -1， 这 两 种 情况 是 等 价 的 ) ， 
preg_split 会 尽 可 能 多 地 切 分 subject 字 人 符 串 ， 这 样 body 可 能 也 会 被 切 分 为 
许多 段 。 设 置 上 限 并 不 能 保证 返回 的 数组 中 包含 的 元 素 就 等 于 这 个 
数 ， 而 只 是 保证 最 多 包 舍 这 么 多 元 素 (阅读 关于 
PREG_SPLIT_DELIM_CAPTURE 的 小 节 ， 你 会 发 现 甚至 这 种 说 法 也 不 
完全 对 ) 

在 两 种 情况 下 ， 应 该 人 为 设置 上 限 。 我 们 已 经 见 过 一 种 情况 : 硕 
望 最 后 的 元 素 包 全 “其 他 所 有 内 容 *。 在 前 一 个 例子 中 ， 一 旦 第 一 段 

(header) 被 切 分 出 来 ， 我 们 就 不 希望 再 对 其 他 部 分 (body) 进行 切 
分 。 所 以 ， 把 上 限 设 为 2 会 保留 body 。 

如 果 用 户 知 道 自 己 不 需要 切割 出 来 所 有 元 素 ， 也 可 以 设 定 上 限 ， 
提高 效率 。 例 如 ， 如 果 $data 字 符 串 包含 以 \s 闪 ，\s 大 |， 分隔 的 许多 字 
段 (比如 姓名 、 地 址 、 年 龄 ， 等 等 ， 而 只 需要 前 面 两 个 ， 就 可 以 把 
limit 设置 为 3， 这 样 preg_split 在 切 分 出 前 两 个 字段 之 后 就 不 会 继续 工 
作 : 

$fields=preg_split('‘\s * ,\s * /x',$data,3); 

EIA AaB RE EBS AY 3 tPF, Fk] a) LA Harray pop 
来 删除 ， 或 者 置之不理 。 


如 果 你 希望 在 没有 设置 上 限 的 情况 下 使 用 任何 preg_split 标 志 位 
(下 一 节 讨 论 ) ， 则 必须 提供 一 个 占 位 符 ， 将 limit 设 置 为 -1， 它 表 

示 “ 没 有 限制 *>。 相反 ， 如 果 limit 等 于 1， 则 表示 “不 需要 切 分 *?， 所 以 它 
并 不 常用 。 上 限 等 于 0 或 者 -1 之 外 的 任何 负数 都 没有 定义 ， 所 以 请 不 要 
使 用 它们 。 

flag 参 数 

preg_split 中 可 以 使 用 的 3 个 标志 位 都 会 影响 函数 的 功能 。 它 们 可 以 
单独 使 用 ， 也 可 以 用 二 元 运算 符 “or” 连 接 (参见 第 456 页 的 例子 ) 。 

PREG_SPLIT_OFFSET_CAPTURE 就 像 在 preg match 和 
preg_match_all 中 使 用 PREG_OFFSET_CAPTURE 一 样 ， 这 个 标志 位 会 
修改 结果 数组 ， 把 每 个 元 素 变 为 包含 两 个 元 素 的 数组 (元 素 本 身 和 它 
在 字符 串 中 的 偏 移 值 ) 。 

PREG_SPLIT_NO_EMPTY 这 个 标志 位 告诉 preg_split 忽 上 略 空 字符 
串 ， 不 把 它们 放 在 返回 数组 中 ， 也 不 记 入 limit 的 统计 。 对 目标 字符 串 
的 起 始 位 置 、 结 尾 位 置 ， 或 是 空 行 的 匹配 ， 都 会 带 来 空 字符 串 。 

M 面 来 改进 前 面 的 “Web 2.0” 的 tag 的 例子 (466) ， 如 果 $input 
H‘party, , fuv’, JBA: 

$tags=preg_split('^s * ,\s * /x', $input); 

得 到 的 $tags 包 含 3 个 元 素 : party'、 空 字符 串 ， 然 后 是 'fun'。 空 字 
符 串 是 喜 号 的 两 次 匹配 之 间 的 “空白 ”。 

如 果 设 置 了 PREG_SPLIT_NO_EMPTY 标志 位 : 

$tags=preg_split(‘/\s * ,\s * /x',Sinput,-1,PREG_SPLIT_NO_EMPTY); 

ERRER ES party Fifun’ ° 

PREG_SPLIT_DELIM_CAPTURE 这 个 标志 位 在 结果 中 包含 匹配 的 
文本 ， 以 及 进行 此 次 切 分 的 正则 表达 式 的 捕获 括号 匹配 的 文本 。 来 看 
个 人 简单 的 例子 ， 如 采 字 符 串 中 各 个 字段 是 以 ‘and? 和 ‘or’ 来 联系 的 ， 例 
如 : 

DLSR camera and Nikon D200 or Canon EOS 30D 

如 果 不 使 用 PREG_SPLIT_DELIM_CAPTURE， 


$parts=preg_split(CAs+(andlomNs+/x,$input); 


得 到 的 $parts 是 : 

array ('DLSR camera’,'Nikon D200','Canon EOS 30D") 

分 隔 符 中 的 匹配 内 容 被 去 择 了 。 不 过 ， 如 有 果 使 用 了 
PRE_SPLIT_DELIM_CAPTURE 标志 位 《并且 用 -1 作为 limit 参 数 的 占 位 
符 ) : 

Sparts = preg split('/\st+ (andlor) \st+ /x', $input, -1, 
PREG SPLIT DELIM CAPTURE); 

$parts 包 含 了 捕获 型 括号 匹配 的 分 隅 符 : 

array (‘DLSR camera','and' Nikon D200','or','Canon EOS 30D') 

此 时 ， 每 次 切 分 会 在 结果 数组 中 增加 一 个 元 素 ， 因 为 正则 表达 式 
中 只 有 一 组 捕获 型 括号 。 然 后 我 们 就 能 够 毅 历 $parts 中 的 元 素 ， 对 找到 
的 and: 和 “or 进行 特殊 处 理 。 

请 注意 ， 如 果 使 用 了 非 捕 获 型 括号 (如 果 pattem 参数 为 “As+ 

(? : andlor) \s+/) , PREG_SPLIT_DELIM_CAPTURE 标志 位 不 会 
产生 任何 效果 ， 因 为 它 只 对 捕获 型 括号 有 效 。 

来 看 男 一 个 例子 ， 第 466 页 分 析 股 市 行情 的 例子 : 

$tickers=preg_split(/[\s, ]+/, $input; 

如 果 我 们 添加 捕获 型 括号 ， 以 及 PREG_SPLIT_DELIM_CAPTURE 

$tickers=preg split ( 7 (Ns ，]+) Z, $input , -1 , 
PREG_SPLIT_DELIM CAPTURE) ; 结果 $input 中 的 任何 字符 都 没有 
被 抛弃 ， 它 只 是 切 分 之 后 保存 在 $tickers 中 。 处 理 $tickers 数 组 时 ， 你 知 
道 编号 为 奇数 的 元 素 是 ” (Ns，]+) , 匹配 的 。 这 可 能 很 有 用 ， 如 果 在 
向 用 户 显 示 错 误 信 息 时 ， 可 以 对 不 同 的 部 分 分 别 进行 处 理 ， 然 后 将 它 
们 合并 起 来 ， 还 原 出 输入 的 字符 串 。 

还 有 一 点 需要 注意 ， 通 过 PREG_SPLIT_DELIM_CAPTURE 添 加 的 
元 素 不 会 影响 切 分 上 限 。 只 有 在 这 种 情况 下 ， 结 采 数 组 中 的 元 素数 目 
2 Aw ERE (如 果 正 则 表达 式 中 的 捕获 型 括号 很 多 ， 则 元 素 就 要 
更 多 

结尾 的 未 参与 匹配 的 捕获 型 括号 不 会 影响 结果 数组 。 也 残 是 说 ， 
如 果 一 组 捕获 型 括号 没有 参与 最 终 匹配 〈 参 见 450 页 ) ， 可 能 会 也 可 能 

` 会 在 结果 数组 中 添加 空 字符 串 。 如 果 编 号 更 靠 后 的 捕获 型 括号 参与 


了 最 终 匹 配 ， 束 会 增加 ， 否 则 就 不 会 。 请 注意 ， 如 果 使 用 了 
PREG_SPLIT_NO_EMTPY 标志 位 ， 结 果 会 有 变化 ， 因 为 空 字符 串 肯 定 
人 > 

会 被 抛弃 。 


preg_grep 
使 用 方法 
preg_grep(pattern,input[,flags]) 
参数 简介 


pattern 分 阳 符 包围 起 来 的 正则 表达 式 ， 可 能 出 现 修 饰 符 。 

input 一 个 数组 ， 如 果 它 们 的 值 能 够 匹配 pattern， 则 其 值 会 复制 到 
返回 的 数组 中 。 

flags 非 强 制 出 现 ， 此 标志 位 PREG_GREP_INVERT 或 者 是 0。 

返回 值 

一 个 数组 ， 包 含 input 中 能 够 由 patterm 匹配 的 元 素 (如 果 使 用 了 
PREG_GREP_INVERT 标 志 位 ， 则 包括 不 能 匹配 的 元 素 ) 

讲解 

preg_grep 用 来 生成 input 数组 的 副本 ， 其 中 只 保留 了 value Bete DL 
Bc (如 果 使 用 了 PREG_GREP_INVERT 标 志 位 ， 则 不 能 匹配 ) pattern 的 
元 素 。 此 value 对 应 的 key 会 保留 。 来 看 个 简单 的 例子 

preg_grep('^s/',$input); 

它 返 回 $input 数 组 中 的 ， 由 空白 字符 构成 的 元 素 。 相 反 的 例子 是 : 

preg_grep(‘/\s/',$input, PREG _GREP_INVERT); 

它 返 回 不 包含 空白 字符 的 元 素 。 请 注意 ， 第 二 个 例子 不 同 于 : 

preg_grep(VAAS+$/,$input); 

因为 后 者 不 包括 空 〈 长 度 为 0) 值 元 素 。 


preg_quote 
使 用 方法 


preg_quote(input [,delimiter]) 

参数 简介 

input 硕 望 以 文字 方式 用 作 pattern 参 数 的 字符 串 (F444) 。 

delimiter 非 强 制 出 现 的 参数 ， 包 含 1 个 字符 的 字符 串 ， 表 示 和 希望 用 
在 pattern 参 数 中 的 分 隔 符 。 

返回 值 

preg_quote 返 回 一 个 字符 串 ， 它 是 input 的 副本 ， 其 中 的 正则 表达 式 
TUF FEET T FRX o WAR aE Torts, MUNA ANE the PS ML 0 

讲解 

如 果 要 在 正则 表达 式 中 以 文字 方式 使 用 某 个 字符 串 ， 可 以 用 内 建 
的 preg_quote 函 数 来 转 义 其 中 可 能 产生 的 正则 表达 式 元 字符 。 如 采 指 害 
了 创建 pattern 时 使 用 的 分 隔 符 ， 字 符 串 中 的 分 隅 符 也 会 被 转 义 。 

preg_quote 是 专门 应 对 特殊 情况 的 国 数 ， 在 许多 情况 下 没有 用 ， 不 
niga Malt: 
/* 输入 SMailSubject， 判 断 SMailMessage 对 应 主题 */ 
$pattern = '/*Subject: \st+(Re:\s*)*' . preg quote ($MailSubject, '/') . '/mi'; 

如 果 $MailSubject 包 含 下面 的 字符 串 

X * Super Deal * * (Act Now!) 

最 后 $pattern 就 会 是 

/\Subject:\s+(Re:\s * ) *\ *\* Super Deal\ *\* \(Act Now\!\)/mi 

DORE Ay DAVE Npreg kW BVA pattemZAV T ° 

如 果 指 定 的 分 隔 符 是 {之 类 对 称 的 字符 ， 那 么 对 应 的 字符 〈 例 
如 人 小) 不 会 转 义 ， 所 以 请 务必 使 用 非 对 称 的 分 隔 符 。 

同样 ， 空 日 字符 和 “#’ 也 不 会 转 义 ， 所 以 结果 可 能 不 适 于 用 x 修饰 
IF ° 

这 样 说 来 ， 在 把 任意 文本 转换 为 PHP 正则 表达 式 的 问题 上 ， 
preg_quote 并 不 是 完善 的 解决 办 法 。 它 只 解决 了 “文本 到 正则 表达 式 ” 的 
问题 ， 而 没有 解决 “正则 表达 式 到 pattern 参 数 ” 的 问题 ， 任 何 preg 函 数 都 
需要 这 一 步 。 下 一 节 给 出 了 解决 办 法 。 


“TRA” Wpreg Hal 


"Missing"Preg Functions 

PHP 内 建 的 preg 函 数 已 经 提供 了 繁多 的 功能 ， 但 是 有 时 候 我 仍然 发 
现 它们 不 够 用 。 一 个 例子 是 我 自己 开发 的 preg_match (454) ° 

我 发 现 ， 男 一 类 需要 提供 自己 的 支持 函数 的 情形 是 ， 正 则 表达 式 
不 是 在 程序 内 部 通过 pattern 参 数字 符 串 提供 的 ， 而 是 来 自 程序 外 部 ( 例 
如 ， 从 文件 读 入 ， 或 者 是 在 Web 表 单 中 提交 ) 。 下 一 下 我 们 将 会 看 到 ， 
把 纯粹 的 正则 表达 陈 字 符 串 转换 为 适合 paten 参数 使 用 的 形式 也 很 复 
Žu o 


FR 


EE, EAAS ERARE, Ta AB EE HT PR 
正确 性 。 我 同样 会 讲解 这 些 问题 。 

与 本 书 中 的 所 有 程序 代码 一 样 ， 下 一 页 的 函数 也 可 以 从 我 的 网 站 
下 载 : http: //regex.info/ ° 


preg_regex_to_pattern 


如 有 果 正 则 表达 式 包 含 在 字符 串 中 〈 可 能 是 从 配置 文件 读 入 ， 或 者 
通过 Web 表单 提交 ) ， 在 preg 范 数 中 使 用 时 ， 首 先 必须 在 两 端 加 上 分 
隔 符 ， 才 能 生成 一 个 preg 函 数 能 用 的 pattem 参 数 。 

问题 所 在 

许多 时 候 ， 把 正则 表达 式 转换 为 pattermn 参 数 只 不 过 是 在 两 端 加 上 和 斜 
线 而 已 。 这 样 ， 正 则 表达 式 字 符 串 ‘fa-z]+? W T a-z], PAAIE 
preg 函 数 的 pattern 参 数 的 字符 串 。 

如 采 正 则 表达 式 中 包含 用 作 分 隔 符 的 字符 ， 情 况 束 很 复杂 。 例 
W, ERARE http: / (IV: 1) ?, ANEA IA DU Be BS 
F http: / (v: H) 7”, Al fEpattem iY, 29 R 2 “Unknown 
modifier/” ° 

第 448 页 已 经 介绍 过 ， 这 个 错误 信息 是 因为 字符 串 中 的 前 两 个 和 斜 
线 字符 被 当 作 分 隔 符 ， 之 后 的 部 分 (在 这 里 就 是 第 3 个 和 斜 线 之 后 的 部 
分 ) 被 当 作 修 饰 符 序列 了 。 


解决 之 道 

有 两 种 办 法 能 解决 内 般 分 隅 符 的 问题 。 之 一 是 选择 正则 表达 式 中 
没有 出 现 的 分 隔 符 ， 如 果 需 要 手工 构造 pattern-modifier 字 符 串 ， 那 么 这 
当然 是 推荐 的 办 法 了 。 所 以 我 在 第 444、449 和 450 页 (还 有 许多 ) 的 例 
TP PERL... ERDIA ° 

要 选 出 正则 表达 式 中 没有 出 现 的 分 隔 符 可 能 并 不 容易 (甚至 不 可 
fe) ， 因 为 字符 串 中 可 能 包含 所 有 分 隅 符 ， 或 者 你 不 能 预先 知道 需要 
处 理 的 文本 。 在 实际 应 用 正则 表达 式 时 这 需要 特别 关注 ， 所 以 最 简单 
的 办 法 是 使 用 第 二 种 : 选择 一 个 分 隅 符 ， 然 后 对 正则 表达 式 字 符 串 中 
出 现 的 此 分 隔 符 进行 转 义 。 

问题 可 能 比 初 看 起 来 要 困难 许多 ， 因 为 你 必须 天 注 菜 些 重要 的 细 
T。 例 如 ， 在 目标 字符 串 末 尾 的 转 义 必须 进行 特殊 处 理 ， 傈 证 它 不 会 
转 义 紧 跟 在 后 面 的 分 隅 符 。 

下 面 的 范 数 返 收 正则 表达 式 字 和 从 串 ， 以 及 可 能 出 现 的 pattern- 
modifier 学 符 串 ， 返 回 一 个 可 以 用 于 preg 峡 数 的 pattem 字 人 符 串 。 代 码 中 
难看 的 反 斜 线 (正则 表达 式 和 PHP 子 串 转 义 ) 或 许 是 你 见 过 的 最 复杂 的 
表示 ; 这 段 代 码 并 不 容易 读 懂 (如 果 你 希望 补习 PHP 单 引号 字符 串 的 语 
意 ， 请 参考 第 444 页 ) 。 


/* 
* 输入 字符 事 形式 的 正 刚 表达 式 (Kitt pattern-modifier 字符 事 ) ， 返 回 适合 Preg HK 
* 的 字符 串 ， 此 表达 式 包 含 在 分 隔 符 之 内 ， 后 面 可 能 还 跟 有 修饰 罕 
a 
function preg regex to pattern($raw regex, Smodifiers = "") 
{ 
/* 
* 进行 转换 需要 在 pattern HHAMPHH (KLRAMHA) HHH 
* 必须 转 义 表达 式 内 部 的 分 隔 符 ， 表 达 式 结 中 的 转 义 必须 特殊 处 理 ， 否 则 它 会 转 义 最 后 的 分 防 入 
* 不 能 盲目 转 义 表达 式 内 闻 的 分 疡 符 ， 因 为 表达 式 内 部 可 能 包括 已 经 转 义 的 分 也 从 
* 例如 ， 如 果 表 达 式 是 '\/1!， 育 目 转 义 得 到 '\\/'， 最终 结果 是 '/\\//'， 这 显然 不 对 


* 应 当 把 表达 式 分 为 三 类 : 已 转 义 的 字符 、 未 转 义 的 针线 (需要 处 理 ) 和 其 他 字符 ， 

* 还 需要 注意 宁 符 事 结存 的 转 义 

4} 
if (! preg match('{\\\\(|:/1$)}', Sraw_regex)) /* 后 面 是 '\' 或 EO0S 的 '1' */ 
{ 


/不 存在 已 转 义 的 针线 ， 末 尾 也 没有 转 义 ， 直 接 转 义 其 中 的 针线 即 可 《1/ 
§cooked = preg replace("!/!', '\/', $raw_regex); 
} 
else 
{ 
/* 用 来 解析 Sraw_regex th pattern 
* 捕获 型 括号 内 的 两 个 部 分 需要 转 义 */ 
$pattern = '{ [*\\\\/]+ | \A\\. 10 7 AAS ) tsk; 


/* Sraw-regex PSpattern HAAAMLRMFLAN OBER 
* 如果 Smatches[1] 不 为 空 ， 返回 转 义 后 的 结果 
* 否则 不 做 修改 直接 返回 */ 


$f = create function('Smatches', ' / 这 个 长 长 的 
if (empty ($matches[1])) /* 草 引 号 
return $matches[0]; /* FHP 
else /* hyo 


return "\\\\" . Smatches[1]; /* 代码 
of 
/* 将 Spattern 应 用 到 $raw regex， 得 到 $cooked */ 
$cooked = preg replace callback($pattern, $f, $raw regex); 
} 

/* 现在 可 以 在 Scooked HHO ORHT, RELE., RER */ 

return "/Scooked/$modifiers"; 

) 


BUR is SOAS (RET Ik EN UO TM, Pe BORE EERE] — A 
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ee teh 2 
有 兴趣 的 读者 不 妨 想 想 函 数 尾 部 preg_replace_callback 使 用 的 正则 
RIA: EWH IE, UREJKU R A paten FR, FA 
FEARR SUN PZ, TH MER OR AIRE © 


对 未 知 的 Pattern 人 参数 进行 语法 检查 


Syntax-Checking an Unknown Pattern Argument 


在 正则 表达 式 两 端 汪 加 分 隅 符 之 后 ， 我 们 确信 它 适 于 用 作 preg 函 数 
的 pattern 参 数 了 ， 但 古 原 来 的 正则 表达 式 还 没有 经 过 语法 正确 性 检验 。 
举例 来 说 ， 如 果 原 始 的 正则 表达 式 是 ‘类 .txt* ， 因 为 菏 些 人 希望 使 


yE 
用 文件 群 组 功能 (4) 而 不 是 正则 表达 式 ， 那 么 preg_regex_to_pattern 
返回 的 束 是 / 兴 .txt。 这 个 正则 表达 式 当 然 不 合法 
(如 果 启 用 了 警报 功能 ) 


Compilation failed:nothing to repeat at offset 0 


所 以 程序 会 发 出 警报 
数 ， 不 过 我 为 读者 提供 了 一 个 。 


PHP 没 有 内 建 检测 pattern 参 数 及 其 正则 表达 式 的 语意 是 否 合法 的 
表达 式 


EK 
preg_pattern_error 会 对 pattern 参数 进行 简单 测试 ， 试 图 使 用 此 正则 
在 落 数 当中 有 一 行 调用 preg_match。 玉 数 的 其 他 部 分 使 用 关 
注 PHP 的 管理 功能 处 理 preg_match 可 能 显示 的 错误 信息 。 


/* 
* PARMA MH pattern 或 其 中 的 正则 表达 式 和 参数 语法 不 正确 ， 输 出 错误 信息 
* GM (语法 正确 ) 返回 false, 
wd 
function preg_pattern_error ($pattern) 
| 
/* 
* Kim pattern 是 否 有 错 ， 直 接 党 试 使 用 它 。 
* 检测 和 捕获 此 错误 却 不 容易 ， 尤 其 是 希望 获得 友好 提示 ， 而 且 不 修改 全 局 状态 
* 所 以 如 果林 开 了 “track errors'， 则 保存 $php errormsg ， 之 后 恢复 仑 的 状态 
* 如 果 没 有 打开 ， 则 打开 它 (因为 需要 用 到 )， 完 成 之 后 再 关闭 
i 
if ($old_track = ini_get ("track_errors") ) 
Sold message = isset($php errormsg) ? Sphp errormsg : false; 
else 
ini set('track errors’, 1); 


/* 现在 确认 track errors 已 经 打开 */ 


unset (Sphp_errormsg) ; 
@ preg match($pattern, ""); /*#iARM pattern */ 
Sreturn value = isset($php_errormsg) ? Sphp_errormsg ; false; 


/* 现在 捕获 了 需要 的 内 容 ， 恢 复 会 局 状态 */ 
if ($old_track) 

Sphp_errormsg = isset (Sold message) ? Sold message : false; 
else 

ini set('track errors', 0); 


return $return value; 


对 未 知 正则 表达 式 进 行 语法 检查 


Syntax-Checking an Unknown Regex 

这 个 函数 使 用 刚刚 开发 的 功能 来 检查 一 个 纯正 则 表达 式 (没有 分 
隅 符 也 没有 模式 修饰 符 ) 的 语法 。 如 果 语 法 不 正确 ， 会 返回 对 应 的 错 
误 信 息 ， 如 果 语 法 正确 ， 返 回 false。 


/* 
* 如 果 表 达 式 语法 错误 ， 返 回 错误 信息 ， 如 果 语 法 正确 返回 false 
*/ 
function preg_regex_error ($regex) 
{ 
return preg pattern error(preg regex to pattern ($regex)); 


} 


递归 的 正则 表达 式 


Recursive Expressions 

preg 引擎 所 属 的 流派 的 大 多 数 方面 都 在 第 3 章 中 有 所 介绍 ， 但 是 此 
流派 还 提供 了 某 些 新 的 有 意思 的 功能 用 于 匹配 舱 套 结构 : 递归 的 表达 
FÑ o 

FRAY" (2 R) , 表示 “在 此 处 递归 应 用 整个 表达 式 ”， 而 (? 
num) | 表示 “在 此 处 递归 应 用 num 所 对 应 编号 的 捕获 型 括号 中 的 序 
列 ”。 命 名 捕获 的 括号 则 使 用 (2 P>name) | 表示 法 。 

下 面 几 节 展示 了 常见 的 递归 。 递 归 在 扩展 的 “tagged data” 例 子 (> 
481) 中 占有 重要 地 位 。 


匹配 典 套 括号 内 的 文本 


Matching Text with Nested Parentheses 

基本 的 递归 的 例子 是 匹配 秋 确 的 括号 内 的 文本 ， 下 面 是 一 种 办 
”0 0 oN J 

这 个 表达 式 匹 配 任意 多 个 双 多 选 分 支 结构 。 第 1 个 多 选 分 支 “[^ 
O ++, 匹配 除 括号 之 外 的 任何 字符 。 因 为 外 面 有 '(? : ...) ey, 
这 个 多 选 分 支 要 求 使 用 占有 优先 的 加 号 ， 避 人 免 “无 休止 匹配 ”( 呈 
226) ° 
另 一 个 多 选 分 支 \〈 (? R) \) | 才 是 问题 的 关键 。 它 匹配 一 对 括 
其 中 可 以 包括 任何 字符 〈 只 要 括号 的 舱 套 是 格式 正确 的 ) 。 这 里 


T 


ED 


“之 间 ” 的 部 分 是 整个 正则 表达 式 希 望 匹配 的 内 容 ， 也 就 是 我 们 可 以 
通过 (? R) ， 直 接 递 归 使 用 整个 正则 表达 式 的 原因 。 

这 个 表达 式 本 身 可 以 正常 工作 ， 但 如 果 要 添加 任何 字符 ， 请 务必 
小 心 ， 因 为 调用 (? R) ， 时 添加 的 任何 字符 同样 会 递归 。 

如 果 使 用 这 个 正则 表达 式 来 校 验 一 个 括号 配对 不 正确 的 字符 串 ， 
你 可 能 希望 在 两 端 加 上 [Ag$ ， 来 确保 * 整 个 字符 串 *。 这 是 不 对 的 ， 因 


为 添加 的 行 锚 点 会 被 递归 应 用 到 整个 字符 串 之 中 ， 导 致 匹配 失败 。 
递归 引用 一 组 捕获 型 括号 

| (OR) | 结构 会 递归 引用 整个 正则 表达 式 ， 但 也 可 以 使 用 
| (? num) , 结构 引用 到 其 中 的 子 集 。 它 递归 引用 编号 为 om 的 捕获 
型 括号 内 的 子 表达 式 ( 注 4) o WRA! (? nm) | RBS, | (? 
0) | 就 等 于 ' CR) | 。 

我 们 可 以 使 用 这 种 部 分 递归 因 来 解决 前 面 那 一 节 中 出 现 的 问题 : 
在 添加 ^...$, 之 前 ， 我 们 用 一 个 捕获 型 括号 把 正则 表达 式 的 主体 部 分 
围 起 来 ， 然 后 在 以 前 使 用 ”(? R) ， 的 地 方 使 用 ' (? 1) ,。 添 加 捕 
获 型 括号 是 为 了 让 ”(? 1) ， 能够 引用 ， 你 或 许 还 记得 ， 这 就 是 上 一 
PURRE o ^...$ | 加 在 这 些 括号 之 外 ， 这 样 我 们 就 不 
会 对 它们 进行 递归 调用 : “~((?:[^()]++|I\((?1)\))*)$1。 

正则 表达 式 中 下 男 线 的 部 分 是 第 1 组 捕获 型 括号 ， 所 以 每 次 迪 到 
| (21) , 都 会 重新 应 用 。 

下 面 PHP 代 码 中 的 正则 表达 式 会 报告 $text 中 的 括号 能 否 配 对 : 

if (preg match('/* ( (?: [^()]++ | \( (?1) \) )* ) $/ 


echo "text is balanced\n"; 


/x', Stext)) 


g "text is unbalanced\n"; 
通过 命名 捕获 进行 递归 引用 
如 果 需 要 递归 调用 的 目 表 达 式 处 于 命名 捕获 〈E138) 中 ， 就 可 以 
使 用 (? P>name) , 进行 递归 引用 ， 而 不 是 之 前 的 ' (? num) , 表 
示 法 。 使 用 这 个 表示 法 ， 我 们 的 例子 整 成 了 : 
| A(?P< stuff > (?:[^O]++N\((?P > stuff)\)) * )$., 
， 这 个 表达 式 可 能 看 起 来 很 复杂 ， 用 模式 修饰 从 x 可 以 看 得 更 清楚 


$pattern = '{ 
# 正则 表达 式 从 此 处 开始 . . . 


(?P<stuff> 

人 

(? 

oa GJH # 除 括 号 之 外 的 任何 字符 

| 

\( (?P>stuff) \) # 开 括 号 ， 更 多 "stuff, "然后 是 闭 括 号 


) * 
) 


# 'x' 是 模式 修饰 符 
faves Oe sehen stext)) 
echo "text is balanced\n"; 
else 
echo “text is unbalanced\n"; 


AT AA AIAI 
会 对 表达 式 中 的 占有 优先 量词 做 最 后 的 补充 。 如 果 外 部 的 
(2: ...) 类 | 是 占有 优先 的 ， 内 部 就 不 必 使 用 O ]++，。 为 了 
阻止 这 个 表达 式 进 入 无 休止 匹配 ， 其 中 之 一 《或 者 是 两 者 ) 必须 是 占 
有 优先 的 。 如 采 不 角 ee 
去 掉 所 有 的 量词 (?:[^ () ] IN(C2R)N)) xj。 


这 样 会 降低 效率 ， 但 是 至 少 不 会 进入 无 法 终止 的 匹配 。 ~ 
率 ， 可 以 使 用 第 6 章 介绍 的 “消除 循环 ”的 技巧 ， 得 到 [A () x (? : 
\( (2 R) \) A O 1*) *, @ 


不 能 回溯 到 递归 调用 之 内 


No Backtracking Into Recursion 

preg 正 则 流派 的 递归 语意 的 重要 特性 之 一 是 ， 它 会 把 递归 结构 匹配 
的 所 有 内 容 当 作 固化 分 组 括号 匹配 的 内 容 (259) EREN, 
结构 不 会 部 分 “交还 (unmatch) ” 某 些 已 经 匹配 的 内 容 来 实现 全 局 匹配 
(而 是 导致 整 个 匹配 失败 ) 


# 正则 表达 式 结 束 
} x 
if 


这 里 说 的 “部 分 ?是 很 重要 的 ， 因 为 回溯 时 ， 递 归 调 用 匹配 的 所 有 
文本 可 以 作为 一 个 整体 来 交还 。 但 不 容许 回溯 到 递归 调用 之 内 的 某 个 
TAS ° 


DAC — 2B REE S 


Matching a Set of Nested Parentheses 

上 上 文 已 经 介绍 过 如 何 匹 配 包 含 规范 配对 括号 的 行 ， 这 里 我 会 介绍 
匹配 对 称 括号 的 办 法 (其 中 可 能 包含 更 多 的 帕 套 括号 ) : \ ( (2: [人 
JT AOR): RY g 2 

这 个 表达 式 的 组 成 部 分 与 之 前 的 一 样 ， 但 是 顺序 安排 略 有 不 同 。 
同样 ， 如 果 你 希望 把 它 当 作 大 的 正则 表达 式 的 一 部 分 ， 应 该 把 它 包 括 
在 捕获 型 括号 中 ， 并 且 修 改 ”(? R) | 来 递归 地 引用 对 应 的 自 表达 
st, 例如 ”(? 1) | (必须 使 用 这 组 捕获 型 括号 对 应 的 编号 ) 。 


效率 


PHP Efficiency Issues 

PHP 的 preg 程 序 使 用 的 PCRE 是 经 过 优化 的 NFA 正 则 引擎 ， 所 以 第 4 
到 6 章 介 绍 的 许多 技巧 都 可 以 直接 应 用 。 其 中 包括 对 关键 部 分 进行 性 能 
测试 ， 根 据 实 际 数据 而 不 是 从 理论 分 析 来 比较 程序 的 快慢 。 第 6 章 给 出 
了 PHP 的 性 能 测试 的 例子 (234) 。 

如 果 程 序 对 时 间 要 求 很 严格 ， 请 记 住 两 点 ， 回 调 函 数 通 常 要 比 模 
式 修饰 符 e 更 快 〈E465) ， 在 太 长 的 目标 字符 串 中 使 用 命名 捕获 必须 进 
行 更 多 的 数据 找 贝 。 

程序 运行 中 ， 遇 到 正则 表达 式 会 编译 ， 但 是 PHP 有 一 个 容量 高 达 4 
096 个 正则 表达 式 的 大 型 缓存 (242) ， 所 以 实际 上 ， 特 殊 的 pattern 
字符 串 只 需要 在 第 一 次 遇 到 的 时 候 编译 。 

模式 修饰 符 S 值 得 单独 介绍 ， 它 会 “研究 (study) ”一 个 正则 表达 
式 ， 试 图 进行 更 快 的 匹配 ( 它 与 Perl 的 study 函 数 不 相 关 ，Perl 的 study 函 
数 研究 的 是 目标 字符 串 ， 而 不 是 正则 表达 式 呈 359) 。 


模式 修饰 符 S: “研究 ” 


The S Pattern Modifier:"Study" 

使 用 模式 修 师 符 $ 告 诉 正则 引擎 ， 在 应 用 这 个 正则 表达 式 之 前 ， 论 
一 点 时 间 〈 注 5) 来 研究 ， 和 希望 这 些 多 人 花 的 时 间 是 值得 的 。 但 是 ， 也 可 
能 这 样 做 之 后 也 不 会 提升 速度 ， 但 是 某 些 情况 下 ， 速 度 的 提升 是 与 数 
据 规 模 相 关 的 。 

现在 有 民 好 的 标准 来 判断 哪 种 情况 下 此 功能 具有 价值 : 它 是 第 6 
章 所 说 的 开头 字符 组 识别 优化 (247) 的 增强 。 

首先 要 告诉 你 的 是 ， 除 非 你 希望 对 大 规模 的 文本 应 用 某 个 正则 表 
达 式 ， 人 否则 不 太 可 能 节省 多 少时 间 。 只 有 把 同一 个 表达 式 应 用 到 大 规 
模 的 文本 ， 或 者 大 量 小 规模 文本 时 ， 才 需要 考虑 模式 修饰 符 S。 

不 使 用 模式 修饰 符 S， 标 准 优化 


来 看 个 简单 的 例子 “< (wt) ,。 从 这 个 表达 式 中 我 们 可 以 看 
出 ， 每 次 匹配 必须 以 字符 “< 开头 。 正 则 引擎 能 够 (preg 套 件 必然 会 这 
样 做 ) 利用 这 一 点 ， 预 先 在 目标 字符 串 中 搜索 ‘<，， 只 在 这 些 位 置 应 用 
完整 的 正则 表达 式 〈 因 为 匹配 必须 以 < 开头 ， 在 其 他 位 置 进行 匹配 
党 试 是 徒劳 的 ) 。 

使 用 简单 预 搜 索 可 以 比 按部就班 应 用 整个 正则 表达 式 快 得 多 ， 原 
因 就 在 于 这 种 优化 。 尤 其 是 ， 需 要 搜索 的 字符 在 目标 字符 串 中 出 现 的 
次 数 越 少 ， 优 化 越 明 显 。 同 样 ， 正 则 引擎 判断 第 一 个 字符 匹配 失败 的 
工作 量 越 大 ， 优 化 越 明 显 。 这 种 优化 对 | <i>|</A>|<b>|<>, tt 
对 [< (wt) | 更 明显 ， 因 为 在 进行 下 一 轮 尝 试 之 前 ， 正 则 引 警 会 党 
试 搜索 4 个 不 同 的 多 选 分 支 ， 这 样 可 以 减少 许多 工作 量 。 

使 用 模式 修饰 符 S 进 一 步 优 化 

preg 引 警 足够 聪明 ， 能 把 这 种 优化 应 用 到 大 多 数 正 则 表达 式 ， 它 
们 的 匹配 必须 以 某 个 字符 开头 ， 就 像 上 面 的 例子 一 样 。 不 过 ， 模 式 修 
饰 符 S 告诉 引擎 ， 对 于 可 能 以 多 个 字符 开头 的 表达 式 ， 必 须 首 先 分 析 
正则 表达 式 来 启用 这 种 优化 。 

这 里 有 几 个 正则 表达 式 的 例子 ， 其 中 有 一 些 在 本 章 中 已 经 出 现 
过 ， 使 用 模式 修饰 符 S 的 结果 如 下 : 


正则 表达 式 | 可 能 的 开头 字符 


<(\wt) |&(\wt); 


(Jan|Feb|…|Dec)\b ADFJMNOS 


(Re:\s*)? SPAM 


f &< " > m 


\r?\n\r?\n \r \n 


模式 修饰 符 S 没 有 用 处 的 场合 

想 想 在 哪些 情况 下 模式 修饰 符 S 没 有 用 会 很 有 其 法 : 

e 开 头 有 锚 点 的 表达 式 (例如 '^ | 和 Nb) ， 或 者 一 个 锚 点 紧 跟 全 
局 性 多 选 分支 。 这 限于 当前 的 实现 ， \b, 的 限制 ， 理 论 上 在 未 来 的 某 


些 版 本 中 可 以 去 掉 。 

e 能 够 匹配 空 字符 的 表达 式 ， 例 如 NS] e 

e 表 达 式 可 以 从 任何 字符 开始 匹配 (或 者 是 绝 大 多 数字 符 ) ， 例 如 
' (2: n OTHERS) x), 请 参考 第 475 页 的 例子 。 这 
个 表达 式 能 够 从 除 ') ' 之 外 的 任何 字符 开始 匹配 ， 所 以 预先 检查 一 遍 几 
平 不 会 去 挥 任何 开始 的 位 置 。 

e 开 头 字 符 只 有 一 种 可 能 的 表达 式 ， 因 为 它们 已 经 进行 了 优化 。 

使 用 建议 

使 用 模式 修 贤 符 S 之 后 ，preg 引擎 花 在 预 分 析 上 的 时 间 并 不 会 太 
长 ， 所 以 如 果 你 希望 对 大 量 的 文本 应 用 正则 表达 式 ， 无 妨 使 用 它 。 如 
果 你 知 得 有 机 会 使 用 ， 潜 在 的 可 能 就 值得 尝试 。 


扩展 示例 


Extended Examples 


用 这 两 个 例子 作为 本 章 的 结 
用 PHP 人 解析 CSV 


CSV Parsing with PHP 

这 里 有 一 个 用 PHP 解 析 CSV 《逗号 分 隔 值 ) 的 程序 ， 原 来 的 例子 在 
第 6 章 (F271) 。 这 个 正则 表达 式 使 用 了 占有 优先 量词 (142) ， 而 
不 是 固化 分 组 括号 ， 因 为 它们 看 起 来 更 清晰 。 首 和 完 ， 这 是 我 们 将 要 使 


用 的 正则 表达 式 : 
Scsv_regex = !{ 

\G(?:%1,) 

(23 


起 始 双 引号 
POU ee Lee. 0 
结束 双 引 号 
# ... 非 双 引 号 /各 号 文本 ... 
Cf ge ae, 


# 或 者 是 双 引 号 字段 ... 
# 
( 
# 


) 
}x'; 


我 们 用 它 来 解析 $CSV 文 件 中 的 一 行 : 


/* 应 用 正则 表达 式 ， 填 充 Sal1 matches */ 


preg match_all($csv_regex, $line, $all_matches); 


/* SResult 用 来 保存 从 $all matches 收集 的 数据 */ 
$Result = array (); 


/* 遍历 每 个 成 功 的 匹配 ., / 
for ($i = 0; $i < count($all matches[0]) $i++) 
{ 
/* 如 果 第 2 组 捕获 型 括号 匹配 了 ， 则 直接 使 用 */ 
if (strlen($all matches[2] [$i]) > 0) 
array push($Result, $all matches[2] [$i]); 
else E B 
{ 
/* 否则 为 引用 字段 ， 在 使 用 前 处 理 其 中 内 嵌 的 相连 双 引 号 */ 


array push($Result, preg replace('/""/', '"', $all matches[1] [$i])); 
} 


/* 现在 可 以 使 用 SResult 数组 */ 


检查 tagged datak RE IE MATE 


Checking Tagged Data for Proper Nesting 
这 个 例子 有 点 复杂 ， 它 用 到 了 许多 有 意思 的 知识 : 检查 XML (或 
者 是 XHTML ， 或 者 任何 标记 的 数据 ) 是否 包含 孤立 的 或 者 错误 匹配 的 
标签。 我 的 办 法 是 检查 正确 匹配 的 tag， 非 tag 文 本 ， 以 及 目 封 财 tag 
(self-closing tag， 例 如 <bv> ， 用 XML 的 语言 来 说 就 是 一 个 “ 空 元 素 
tag”) ， 和 硕 望 我 能 找到 整个 字符 串 。 
下 面 是 完整 的 正则 表达 式 : 


[A ((2:<(\w++) [^>]*+(?<!/)>(?1)</\2>|[^<>]++1<Nw[^>]*+/>)w 十 ) $) 
能 够 匹配 的 字符 串 不 会 包含 错误 匹配 的 tag ( 稍 后 会 给 出 若干 告 
il) 。 
这 可 能 相当 复杂 ， 但 是 如 果 分 解 为 各 个 部 分 ， 就 可 以 掌握 了 。 外 
层 的 C) $, 包围 表达 式 的 主体 ， 保 证 在 返回 success 之 前 匹配 整个 


目标 字符 串 。 主 体 包含 在 一 组 捕获 型 括号 之 内 ， 我 们 马上 会 看 到 ， 这 
组 括号 容许 在 之 后 递归 引用 “主体 ”。 

正则 表达 式 的 主体 

正则 表达 式 的 主体 ， 就 是 这 三 个 多 选 分 文 (在 正则 表达 式 中 的 下 
画 线 标注 ， 以 便 观 察 ) ， 它 们 包含 在 ”〈? : ...) x+ 中 ， 容 许 任意 
的 混合 都 能 匹配 。 这 三 个 多 选 分 文 匹 配 的 分 别 是 : tags、 非 tag 文 本 ， 以 
及 目 封 财 tag。 

因为 每 个 多 选 分 文 能 够 匹配 的 文本 之 间 是 没有 冲突 的 《也 融 是 
说 ， 如 果 一 个 多 选 分 文 能 够 匹配 ， 另 两 个 殉 不 能 匹配 ) ， 我 知道 稍 后 
的 回溯 永远 不 会 容许 另 一 个 多 选 分 文 匹配 同样 的 文本 。 利 用 这 一 点 ， 
我 们 可 以 使 用 占有 优先 的 星 号 ， 提 高 “容许 任何 混合 ”括号 的 匹配 效 
率 。 它 告诉 正则 引 敬 ， 不 要 徒劳 地 回 滴 ， 如 末 找 不 到 匹配 ， 束 很 快 出 
结果 。 

因为 同样 的 原因 ， 三 个 多 选 分 支 可 以 以 任何 顺序 出 现 ， 我 把 最 可 
能 匹配 的 多 选 分 支 放 在 最 前 面 (260) 。 

现在 逐个 看 这 些 多 选 分 文 : 

第 2 个 多 选 分 支 非 tag 文 本 我 从 它 开始 讲 ， 因 为 “[^< >]++ | 很 简 
单 。 这 个 多 选 分 文 匹配 非 tag 文本 。 在 这 里 使 用 占有 优先 量词 可 能 有 所 
多 此 一 举 一 一 外 面 的 '(? : ...) 类 +) | 也 是 占有 优先 的 ， 但 是 为 了 
安全 起 见 ， 我 布 望 在 我 知道 不 会 市 来 负面 影 啊 的 地 方 使 用 占有 优先 量 
词 。 (通常 使 用 占有 优先 量词 是 为 了 提高 效率 ， 但 是 它 也 会 改变 匹配 
的 语意 。 这 种 修改 可 能 有 帮助 ， 不 过 你 必须 清楚 它 的 后 果 呈 259) 。 

第 3 个 多 选 分 支 自封 闭 tag 第 3 个 多 选 分 支 <\w[^>] 尖 +/> | 匹配 
自封 闭 tag， 例 如 <br/> 和 <img.../> (自封 闭 tag 在 后 面 的 尖 括 号 之 前 
ARE) 。 与 之 前 一 样 ， 占 有 优先 量词 可 能 有 点 多 余 ， 但 它 肯 定 不 
会 市 来 负面 影响 。 

第 1 个 多 选 分 支 一 对 匹配 的 tags。 最 后 我 们 来 看 第 1 个 多 选 分 支 : 
NAO De *4 (25!) F 1) <A>, 


这 个 子 表达 式 的 第 一 部 分 〈 以 下 画 线 标注 ) 匹配 开头 的 tag， 用 
” (Ww++) | ， 也 就 是 整个 正则 表达 式 的 第 2 组 捕获 型 括号 (在 


hw 中 使 用 占有 优先 量词 是 很 重要 的 ， 我 们 将 会 看 到 ) 匹配 tag 名 
称 。 

| (? <!/) | 是 否定 型 逆序 环视 (133) ， 确 保 没 有 匹配 斜 
线 。 我 们 把 它 放 在 匹配 开头 tag 的 子 表达 式 中 的 “> | 之 前 ， 确 保 没 有 匹 
配 自 封闭 tag， 例 如 <hr/> (我 们 已 经 看 到 ， 自 封闭 的 tag 由 第 3 个 多 选 
分 支 处 理 ) 。 

在 开头 tag 匹 配 之 后 ，' (? 1) , 会 递归 地 应 用 到 第 一 组 捕获 型 括 
号 内 的 子 表达 式 。 它 是 之 前 提 到 的 “主体 ”， 也 就 是 一 块 只 包含 对 称 tag 
的 文本 。 它 匹配 之 后 应 该 匹配 对 应 的 结尾 tag (closing tag) ， 就 是 这 个 
多 选 分 支 的 第 一 部 分 匹配 的 (tag 的 名 字 捕 获 到 第 二 组 捕获 型 括号 ) 。 
<A2> | 开头 的 ' </ 确保 它 是 一 个 结尾 tag，'\2> | 中 的 反 向 引用 确 
保 是 一 个 正确 的 结尾 tag 。 

如 果 是 检查 HTML 或 者 其 他 tag 名 不 区 分 大 小 写 的 数据 ， 请 在 正则 
表达 式 之 前 添加 ' (? i) ，， 或 者 使 用 模式 修饰 符 i。 

完成 了 ! 

占有 优先 量词 

关于 第 1 个 多 选 分 支 < Aw) [A>]X+ (? <1 /7/) > PH 
Nw | 的 占有 优先 ， 我 希望 多 说 几 句 。 如 果 流 派 的 功能 不 够 强大 ， 不 
能 使 用 占有 优先 量词 或 者 固化 分 组 (139) ， 我 会 在 这 个 多 选 分 支 的 
(wt) 之 后 加 上 \b: “< (wt) \bP>]* (2 <!/) >, ° 

让 很 重要 ， 它 能 够 停止 (w+) WAC, plan, ‘<link>...<Ai 
> :中 第 一 个 于 ' 的 匹配 。 这 样 会 将 mk" 单 独 留 在 捕获 型 括号 外 面 ， 导 致 
后 面 的 反 向 引用 '\2, 引用 的 tag 名 不 完整 。 

正常 情况 下 这 些 都 不 会 发 生 ， 因 为 \w+ 是 匹配 优先 的 ， 会 匹配 整个 
tag 名 。 不 过 ， 如 果 正 则 表达 式 应 用 到 藤 套 结构 粳 糕 的 文本 中 ， 它 应 该 
匹配 失败 ， 搜 索 中 的 回溯 会 强迫 w+ | 匹配 不 完整 的 tag 名 ， 例 如 < 
link>...<Mi>? ° Nb) 能 解决 这 个 问题 。 

谢 天 谢 地 ，PHP 的 强大 的 preg 引 擎 支持 占有 优先 量词 ， 使 用 
(w++) 与 附加 \b, 的 意义 一 样 : 不 容许 回溯 切割 tag 名 ， 但 是 效 


真实 世界 的 XML 

真实 世界 的 XML 比 简 单 的 匹配 tag 要 复杂 得 多 。 我 们 还 必须 考虑 
XML 注释 、CDAIA 部 分 、 处 理 指 令 和 其 他 。 

添加 对 XML 注释 的 支持 是 很 容易 的 ， 只 需要 增加 第 4 个 多 选 分 支 ， 
[<I --. 火 ? --> | ， 请 务必 使 用 (? s) | 或 者 是 模式 修饰 符 S， 这 样 
点 号 能 够 匹配 换行 符 。 

同样 ，CDATA 部 分 的 格式 是 < ! [CDATA[..J]> ， 可 以 用 另 一 个 
多 选 分 支 '<! \[CDATA\[. 淡 ? ]]> ,来 处 理 ，‘<? xmlversion= "1.0 
"2 > 之 类 的 处 理 指令 需要 再 添加 一 个 多 选 分 支 : 『「 <\? .类 ? \? 
20 o 

entity 声明 的 形式 是 < ! ENTITY... > ， 可 以 用 [< ! ENTITY). 
类? > | 来 处 理 。XML 中 有 许多 类 似 的 结构 ， 他 们 中 的 大 部 分 可 以 用 
<! [A-Z].*«? > | 取代 '<! ENTITY\b.*? > | 来 处 理 。 

虽然 还 有 些 问题 ， 不 过 上 面 的 办 法 应 该 能 够 应 付 绝 大 多 数 XML © 
下 面 是 完整 的 PHP 代 码 : 


Sxml regex = '{ 
a 
(2: <(\wtt) [*>]*+ (?<!/)> (21) </\2> # 匹配 一 组 tag 

^<>]++ # 非 tag 字符 
\w E>] #4 # 自 寺 闭 tag 

An easy # 注视 

<!\ [CDATA\[.*?]] # cdata 数据 

<\2.*2\? # 处 理 指令 
! (A-Z).*2> < Entity 声明 之 类 


if (preg match($xml_regex, $xml_string) ) 
echo “block structure seems valid\n"; 
else 


echo "block structure seems invalid\n"; 


HTML 

常见 的 情况 是 ， 真 实 世界 的 HTML 有 各 种 各 样 的 问题 ， 这 样 的 检测 
几乎 没有 实用 价值 ， 例 如 孤立 元 素 或 者 失 配 的 tag， 以 及 独立 出 现 
的 ‘<? 和 “>' 字 符 。 不 过 ， 即 使 是 正确 配对 的 HTML 也 有 些 特殊 情况 我 
们 必须 处 理 ， 注 释 和 <script>tag。 

HTML 注 释 规范 与 XML 注释 一 样 : “< ! x? --> ， ， 使 用 模式 
修饰 符 s。 

<script > 部 分 是 重要 的 ， 因 为 它 可 能 包含 ‘<? 和 >，， 所 以 必须 容 
YF <script... > FU </script> Z I] H PAE (Ay AF oo BATT AT DARREN BE 
'<script\b[A>]* >.*? </script> , 。 有 趣 的 是 ， 不 包含 禁止 出 现 
<A > 的 字符 的 script 序 列 会 被 第 1 个 多 选 分 支 捕获 ， 因 为 它 走 的 
也 是 “匹配 的 一 组 tag” 的 套路 。 如 果 <script> 不 包含 任何 其 他 字符 ， 第 1 
个 多 选 分 支 会 失败 ， 这 些 文本 留 给 新 增 的 多 选 分 支 。 

这 里 是 HTML 版 本 的 PHP 程 序 : 


$html regex = '{ 


“{ 
(7: <(\wet) [45] + (2<1/)> (91) </\2> # 匹配 一 对 tag 
| [*<>]++ # 4E tag 文本 
| <\w[*>] *+/> # 自封 闭 tag 
| <== t> # 注释 
| <script\b[*>]*>.*?</script> # script 内 容 
j + 
) $ 
}iSx'; 


if (preg _ match ($html regex, $html string)) 
echo "block structure seems valid\n"; 


else 
echo "block structure seems invalid\n"; 
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门户 和 商业 网 站 ) ， 再 到 WebSite (第 一 个 桌面 PC 的 Web 服 务 器 软 
件 ) ，O'Reilly Media，Inc. 一 直 处 于 Internet 发 展 的 最 前 治 。 

许多 书店 的 反馈 表明 ，O’Reilly Media，Inc. 是 最 稳定 的 计算 机 图 
书 出 版 商 -本 书 都 一 版 再 版 。 与 大 多 数 计算 机 图 书 出 版 商 相 
HE, O’Reilly Media，Inc. 具 有 深厚 的 计算 机 专业 背景 ， 这 使 得 O’Reilly 
Media，Inc. 形 成 了 一 个 非常 不 同 于 其 他 出 版 商 的 出 版 方针 。O’Reilly 
Media，Inc. 所 有 的 编辑 人 员 以 前 都 是 程序 员 ， 或 者 是 顶尖 级 的 技术 专 
家 。O'Reilly Media，Inc. 还 有 许多 固定 的 作者 群体 一 一 他 们 本 里 是 相 
天 领域 的 拉 术 专家 、 咨 询 专 家 ， 而 现在 编写 著作 ，O’Reilly Media, 
Inc. 依 徘 他 们 及 时 地 推出 图 书 。 因 为 O'Reilly Media, Inc. Aer HH t+ 
算 机 业界 联系 着 ， 所 以 O’Reilly Media，Inc. 知 道 市 场 上 真正 需要 什么 
Als 


